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图 灵 社 区 的 电子 书 没有 采用 专 有 客 
户 端 ， 您 可 以 在 任意 设备 上 ， 用 自 
己 喜 欢 的 浏览 器 和 PDF 阅读 器 进行 
阅读 。 

但 您 购买 的 电子 书 仅 供 您 个 人 使 用 ， 
未 经 授权 ， 不 得 进行 传播 。 

我 们 愿意 相信 读者 具有 这 样 的 良知 
和 觉悟 ， 与 我 们 共同 保护 知识 产权 。 


如 果 购 买 者 有 侵权 行为 ， 我 们 可 能 
对 该 用 户 实 施 包括 但 不 限于 关闭 该 
帐号 等 维权 措施 ， 并 可 能 追究 法 律 
责任 。 


Fernando Doglio 


Globant 公 司 软件 架构 师 。 过 去 十 年 一 直 
从 事 Web 开 发 工作 ， 期 间 使 用 了 大 多 数 
最 前 沿 的 技术 , 如 PHP、Ruby on Rails, 
MySQL, Python, Node.js, AngularJS, 
REST API 等 。Fernando 喜 欢 钻研 新 事物 ， 
他 的 GitHub 账 户 每 个 月 也 会 因此 获得 回 
购 。 他 还 是 开源 拥护 者 ， 并 通过 网 站 
lookingforpullrequests.com 来 获得 人 
们 的 支持 。Fernando 另 著 有 Pro REST 
API Development with Node.js。 他 的 
Twitter 账 号 是 @deleteman123。 


陶 俊 杰 


长 期 从 事 数 据 分 析 工 作 ， 酷 爱 Python， 每 
天 都 和 Python 面对面 ， 乐 此 不 疲 。 本 科 毕 
业 于 北京 交通 大 学 机 电学 院 ， 硕 士 毕业 于 
北京 交通 大 学 经 管 学 院 。 曾 就 职 于 中 国 移 
动 设计 院 ， 目 前 在 京东 任职 。 


陈 小 莉 

长 期 从 事 数据 分 析 工 作 , 喜欢 Python。 本 科 
与 硕士 毕业 于 北京 交通 大 学 电信 学 院 。 目 
前 在 中 科 院 从 事 科 技 文 献 与 专利 分 析 工 作 。 
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本 书 首先 介绍 什么 是 性 能 分 析 ， 性 能 分 析 如 何在 项 目 开发 周期 中 发 挥 作用 ， 以 及 通过 在 项 目 中 进行 
性 能 分 析 实 践 能 够 取得 的 效果 。 紧 接着 介绍 分 析 性 能 所 需 的 核心 工具 〈 性 能 分 析 器 和 可 视 化 性 能 分 析 器 )。 
然后 介绍 一 系列 性 能 优化 技术 ， 最 后 一 章 会 介绍 一 个 具有 实际 意义 的 优化 案例 。 

本 书 适合 所 有 Python 程序 员 阅 读 。 
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WBE SUREDSEIE HS FARE A, WERK, BUECKER TT ITT SUE BEER, EA, 
阳光 都 会 离开 太阳 表面 ， 以 大 约 30 万 千 米 / 秒 的 速度 ， 经 过 8 分 17 秒 到 达 地 球 表面 。 太 阳 的 计算 方 
式 很 简单 ,一 视 同仁， 普照 大 地 ， 并 行 (parallel ) 照 钦 每 一 个 对 象 ， 谁 也 不 会 多 得 一 米 阳 光 。 地 
球 上 的 每 个 人 都 可 看 成 享受 阳光 资源 的 独立 进程 (process )， 人 们 平时 处 理 自己 的 任务 ， 经 历 着 
各 自 的 生命 周期 , 彼此 间 有 时 也 会 通信 ( 进程 间 通 信 , IPC )。 由 于 太阳 资源 丰富 , 可 以 不 计 得 失 ， 
她 也 许 从 来 不 觉得 自己 的 光 具 有 波 粒 二 象 性 ， 也 没 觉得 并 行 计算 的 效率 高 。 


但 是 ， 人 不 是 太阳 ,每 个 人 在 一 生 中 时 刻 面 对 着 诸多 问题 。“ 人 无 远虑 ， 必 有 近 忧 "， 本 质 上 
皆 为 时 间 与 空间 的 稀缺 问题 , 这 与 计算 机 的 多 任务 处 理 问题 一 致 。 完成 任务 之 前 , 需要 精打细算 ， 
以 期 充分 利用 资源 ， 尽 可 能 地 多 快 好 省 ,实现 高 效 运行 。 对 于 单 任 务 ， 人 们 会 努力 提升 自己 的 能 
Jj, 并 借助 高 性 能 的 工具 ， 提 高 做 事 的 效率 ， 从 内 部 不 断 优 化 自己 。 对 于 多 个 简单 任务 ， 可 以 完 
成 一 个 任务 再 去 完成 男 一 个 任务 ， 就 像 for 循 环 处 理 方式 。 然 而 , “好 汉 难 敌 四 手 ”， 个 人 的 力量 
总 是 有 限 的 ， 所 以 时 间 紧 迫 、 任 务 艰巨 时 ,团队 的 力量 (多 进程 ) 不 可 或 缺 。 有 时 ， 在 处 理 没有 
共同 资源 需求 的 多 个 任务 时 ,可 以 多 人 同时 作业 ， 并行 处 理 ， 提 高 效率 。 处 理 有 共同 资源 需求 的 
多 个 任务 时 ， 我 们 会 为 每 个 人 设 定 不 同 的 阶段 性 目标 ， 在 这 段 时 间 做 点 任务 A， 在 那 段 时 间 做 点 
任务 B， 也 就 是 多 线程 的 并 发 (concurrency ) 处 理 ; iE, 一段 时 间 后 ， 两 个 任务 就 都 可 以 完成 。 
然而 ， 多 进程 与 多 线程 ， 究 竞 哪 种 方式 效率 高 、 效 果 好 ， 需 要 根据 实际 情况 决定 。 


计算 机 多 任务 处 理 的 理论 , 与 上 述 情 景 类 似 。 大 师 们 已 经 将 这 些 资源 配置 方法 抽象 成 完整 的 
理论 , 不 仅 适用 于 计算 机 编程 语言 , 对 提高 个 人 素质 和 改善 团队 合作 方式 也 大 有 神 益 。 众所周知 ， 
Python 语言 简洁 优雅 的 特点 ， 使 其 生产 效率 大 幅 提 升 ， 然 而 在 面 对 海 量 的 数据 处 理 、 文 本 分 析 、 
服务 器 响应 时 ， 其 性 能 瓶颈 也 十 分 明显 。 但 是 ，Python 社 区 一 直 在 努力 ， 从 语言 自身 的 特性 到 计 
算 机 优化 理论 ， 特 别 是 多 任务 处 理 〈 并 行 、 并 发 、 分 布 式 ) 等 方面 ,不 断 地 改善 Python 的 性 能 。 
本 书 即 是 社区 对 Python 性 能 分 析 与 优化 实践 的 系统 性 总 结 之 一 。 


本 书 内 容 丰 富 ， 浅 显 易 风 ， 适 合 有 Python 基础 的 读者 阅读 。 作 者 从 算法 性 能 分 析 理 论 开 始 ， 
首先 介绍 主流 的 Python 性 能 分 析 工 具 , 包括 cProfile 性 能 分 析 器 、Line_profiler+kernprof 
性 能 分 析 工 具 、KCacheGrind+pyprof2calltree、RunSnakeRun 可 视 化 性 能 分 析 工 具 ， 帮 助 读 
者 发 现 程序 的 性 能 瓶颈 。 紧 接着 ， 将 通用 性 能 优化 方法 与 Python 语言 结构 紧密 结合 起 来 ， 优 化 程 
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序 的 性 能 ， 介 绍 了 函数 值 缓存 、 列 表 生 成 器 、ctypes 和 字符 串 优 化 等 技巧 。 之 后 ， 介 绍 了 Python 
多 线程 与 多 进程 的 多 任务 处 理 方法 ,并 对 PyPy (JIT 编 译 器 ) 与 Cython ( 引入 C 语 言 类 型 ) 的 用 法 
与 特点 进行 了 深入 分 析 。 男 外 ， 针 对 Python 在 数据 分 析 领 域 的 重要 地 位 ， 作 者 还 专门 介绍 了 高 性 
能 的 数据 处 理 程序 库 ， 如 Numba、Parakeet 和 pandas。 最 后 ， 作 者 通过 一 个 Python 网 络 疏 虫 案例 ， 
将 前 面 介绍 的 性 能 分 析 与 优化 方法 结合 起 来 ， 不 断 地 改善 程序 的 性 能 ， 对 比 性 能 优化 的 效果 。 


优化 Python 也 是 需要 成 本 的 。 写 Python 总 是 很 happy， 因 为 在 普通 的 业务 场景 中 ，Python 并 不 
慢 ， 再 结合 成 熟 的 科学 计算 生态 环境 ， 问 题 大 都 可 以 轻松 解决 。 虽 然 Python 的 性 能 分 析 与 优化 方 
法 都 很 简单 , 但 是 优化 也 是 需要 花费 时 间 的 , 所 以 大 规模 的 性 能 优化 需要 面 对 特 定 的 业务 场景 
有 意义 ， 正 如 不 是 所 有 人 每 天 都 需要 跑 100 米 冲刺 ， 亦 如 Python 的 发 明 者 Guido van Rossum 所 说 ， 
“……… 对 绝 大 多 数 事情 而 言 ， 语 言 性 能 并 不 重要 ……”(...for most of what you're doing, the speed of 
the language is irrelevant... ). 假如 你 的 Python 程 序 总 是 需要 优化 , 那么 高 性 能 部 分 代码 可 以 考虑 使 
用 新 语言 实现 ， 参 考 Google 与 Dropbox 的 发 展 轨迹 。 如 果 你 有 时 间 、 想 优化 ， 那 就 动手 吧 ， 本 书 
可 以 给 你 一 些 指导 。 不 过 , 开源 项 目的 发 展 速 度 不 是 书本 可 以 跟 上 的 , 所 以 要 想 了 解 最 新 的 进展 ， 
需要 主动 关注 相关 工具 的 官方 网 站 或 GitHub。 书籍 能 够 提供 的 是 基础 性 、 系 统 化 的 指导 ,知识 可 
能 过 时 ， 但 方向 不 会 改变 。 

Python 生态 系统 的 性 能 与 时 俱 进 。 随 着 数据 获取 成 本 与 云 计 算 资 源 成 本 的 不 断 降 低 ， 人 们 越 
来 越 容易 获取 强大 的 计算 资源 (如 亚马逊 AWS、 微 软 Azure、 谷 歌 云 计算 平台 )。PEP 不 断 地 引入 
优质 方案 ， 增 强 Python 的 性 能 ，Spark ( 支持 Python )、dask、IPython 的 ijpyparallel 等 并 行 计算 
框架 也 在 快速 发 展 ，Python 的 生态 系统 性 能 不 断 地 优化 ， 精 彩 的 故事 正在 进行 ， 让 我 们 共同 努力 
吧 ( Let's do more of this )。 


简单 ， 所 以 持久 。 

























































































陶 俊杰 
于 2016 年 5 月 


前 


了 中 


Packt 出 版 社 日 
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的 朋友 们 让 我 产生 了 写作 本 书 的 想法 ,他 们 希望 有 人 可 以 深入 探讨 Python 高 怕 
这 个 错综复杂 的 问题 , 介绍 与 之 相关 的 所 有 话题 ,包括 代码 性 能 分 析 、 现 有 的 性 能 分 析 工 具 ( 比 
能 分 析 器 和 其 他 性 能 增强 技术 )， 甚 至 包括 标准 Python 实现 的 其 他 版 本 。 
因此 ,欢迎 你 阅读 本 书 。 在 本 书 中 ， 我们 
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等 介 绍 与 程序 性 能 优化 有 关 的 一 切 。 与 性 能 优化 这 
个 主题 相关 的 知识 并 不 是 阅读 本 书 的 必要 前 提 ( 当然 了 解 也 没有 坏处 )， 但 是 关于 Python 编程 话 
言 的 知识 是 必需 的 ， 尤 其 是 对 于 一 些 专门 优化 Python 代码 的 章节 而 言 。 
我 们 首先 将 会 介绍 什么 是 性 能 分 析 , 性 能 分 析 如 何在 项 目 开 发 周期 中 发 挥 作用 , 以 及 通过 在 
项 目 中 进行 性 能 分 析 实 践 能 够 取得 的 效果 。 紧 接着 将 介绍 分 析 性 能 所 需 的 核心 工具 (PERE SAT a 
和 可 视 化 性 能 分 析 器 )。 然 后 会 讨论 一 系列 性 能 优化 技术 ， 最 后 一 章 会 介绍 一 个 具有 实际 意义 的 
优化 示例 。 
本 书 内 容 
第 1 章 ， 性 能 分 析 基 础 ， 为 没有 关注 过 性 能 分 析 艺 术 的 人 们 介绍 相关 的 基础 知识 。 
第 2 章 ， 性 能 分 析 器 ， 介 绍 如 何 使 用 贯穿 全 书 的 核心 分 析 工 具 。 
第 3 章 , 可 视 化 一 利用 GUI 理解 性 能 分 析 数 据 , 介绍 如 何 使 月 
和 RunSnakeRun 工 具 ， 并 有 目 通 过 不 同 的 可 视 化 技术 帮助 开发 者 型 








HKCacheGrind/pyprof2calltree 
H 


解 cProfile 的 输出 结果 。 
开发 者 在 尝试 其 他 优化 手段 之 前 都 应 该 优先 采用 这 些 做 法 。 


第 4 章 , 优化 每 一 个 细节 , 介绍 性 能 优化 的 基本 过 程 和 一 系列 值得 推荐 的 好 习惯 , 每 个 Python 


常用 的 优化 方法 ,介绍 如 何 安 装 和 使 用 Cython 和 PyPy， 优 化 代码 怕 
的 性 能 优化 工具 。 











第 5 章 ， 多 线程 与 多 进程 ， 介 绍 多 线程 和 多 进程 ， 并 论述 二 者 的 使 用 方法 和 适用 场景 
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第 7 章 ， 用 Numba、Parakeet 和 pandas 实 现 极速 数据 处 理 ， 介 绍 针对 处 理 数据 的 Python 脚本 
这 些 专用 工具 (Numba, 、Parakeet 和 pandas ) 可 以 提升 数据 处 理 效率 。 





Boe, MARR, DÉDt Mea kha hl, RARER, Talat PTT. 
具 和 技术 消除 瓶颈 。 总 之 ， 我 们 将 会 利用 每 项 技术 对 比 结果 。 











本 书 需要 的 工具 
在 运行 本 书 中 的 代码 之 前 ， 你 的 操作 系统 中 必须 安装 以 下 工具 ; 


口 Python 2.7 

Q line profiler 1.0b2 
QO) KCacheGrind 0.7.4 
O RunSnakeRun 2.0.4 
口 Numba 0.17 

O 最 新 版 本 的 Parakeet 
口 pandas 0.15.2 








目标 读者 


由 于 本 书 涵盖 了 Python 代码 性 能 分 析 和 优化 的 方方面面 ， 所 以 不 同 水 平 的 Python 开发 者 都 能 
从 中 受益 。 


唯一 的 要 求 是 读者 要 具备 Python 编程 语言 的 一 些 基础 知识 。 























排版 约定 
本 书 中 用 不 同 的 文本 样式 来 区 分 不 同 种 类 的 信息 。 下 面 给 出 了 这 些 文本 样式 的 示例 及 其 
T3. 
正文 中 的 代码 和 用 户 输入 会 这 样 显 示 :“ 我 们 可 以 打印 /收集 PROFILER 函 数 里 我 们 觉得 有 意 
义 的 内 容 。” 
代码 块 示例 如 下 : 




















import sys 


def profiler(frame, event, arg): 
print 'PROFILER: %r %r' % (event, arg) 


sys.setprofile(profiler) 


当 我 们 希望 你 注意 代码 块 中 的 某 些 部 分 时 ， 相 关 的 行 或 者 文字 会 被 加 粗 : 


z 
uj 
uo 





Traceback (most recent call last): 
File "cprof-testl.py", line 7, in «module» 
runRe() ... 


File "/usr/lib/python2.7/cProfile.py", line 140, in runctx 


exec cmd in globals, locals 
File "«string»", line 1, in «module» 
NameError: name 're' is not defined 


命令 行 输入 或 输出 将 会 这 样 表示 : 





$ sudo apt-get install python-dev libxml2-dev libxslt-dev 


新 术语 和 重点 词汇 均 采 用 楷体 字 表 示 。 





[ x 这 个 图 标 表示 警告 或 需要 特别 注意 的 内 容 。 


M 
| Q 这 个 图 标 表示 提示 或 者 技巧 。 


读者 反馈 





Ll | 





我 们 非常 欢迎 读者 的 反馈 。 如 果 你 对 本 书 有 些 想 法 ， 有 什么 喜欢 或 是 不 喜欢 的 ， 请 反馈 给 我 


们 。 这 将 有 助 于 我 们 开发 出 能 够 充分 满足 读者 需求 的 图 书 。 











一 般 的 反馈 ， 请 发 送 电 子 邮 件 至 feedback@packtpub.com， 并 在 邮 伯 











如 果 你 在 某 个 领域 有 专长 ， 并 有 意 编 写 一 本 书 或 是 贡献 一 份 力量 ， 
地 址 为 http://www.packtpub.com/authors。 





客户 支持 





主题 中 注 明 书 名 。 
请 参考 我 们 的 作者 指南 ， 





你 现在 已 经 是 Packt3| 以 为 做 的 读者 了 ， 为 了 能 让 你 的 购买 物 有 所 值 ， 我 们 还 为 你 准备 了 以 


下 内 容 。 


下 载 示 例 代码 
你 可 以 用 你 的 账户 从 http:/www.packtpub.com 下 载 所 有 已 购买 Packt 




















ya 


件 把 文件 发 送 给 你 。 


图 书 的 示例 代码 文件 。 如 























你 从 其 他 地 方 购买 本 书 ， 可 以 访问 http://www.packtpub.com/support 并 注册 ， 我 们 将 通过 电子 邮 





下 载 本 书 的 彩色 图 像 


我 们 也 提供 了 本 书 的 PDF 文件 ， 里 面包 含 了 本 书 的 截屏 和 流程 图 等 彩色 图 片 。 彩 色 图 片 将 能 
帮助 你 更 好 地 理解 输出 的 变化 。 你 可 以 通过 https://www.packtpub.com/sites/default/files/downloads/ 
9300OS_GraphicBundle.pdf 下 载 。 








勘误 


虽然 我 们 已 尽力 确保 本 书 内 容 正确 ， 但 出 错 仍 旧 在 所 难免 。 如 果 你 在 我 们 的 书 中 发 现 错误 ， 
不 管 是 文本 还 是 代码 ， 和 希望 能 告知 我 们 ， 我 们 不 胜 感激 。 这 样 做 ， 你 可 以 使 其 他 读者 免 受挫 败 ， 
帮助 我 们 改进 本 书 的 后 续 版 本 。 如 果 你 发 现任 何 错误 ， 请 访问 http:/www.packtpub.comy/ 
submit-errata 提 交 ， 选 择 你 的 书 ， 点 击 勘 误 表 提交 表单 的 链接 ， 并 输入 详细 说 明 。 勘 误 一 经 核实 ， 
你 的 提交 将 被 接受 ， 此 勘误 将 上 传 到 本 公司 网 站 或 添加 到 现 有 勘误 表 。 从 http:/www.packtpub. 
com/support 选 择 书 名 就 可 以 查看 现 有 的 勘误 表 。 





















































侵权 行为 
版 权 材料 在 互联 网 上 的 盗版 是 所 有 媒体 都 要 面 对 的 问题 。Packt 非 常 重视 保护 版 权 和 许可 证 。 


如 果 你 发 现 我 们 的 作品 在 互联 网 上 被 非法 复制 , 不 管 以 什么 形式 , 都 请 立即 为 我 们 提供 位 置地 址 
或 网 站 名 称 ， 以 便 我 们 可 以 寻求 补救 。 


请 把 可 疑 盗版 材料 的 链接 发 到 copyright@packtpub.com。 
非常 感谢 你 帮助 我 们 保护 作者 ， 以 及 保护 我 们 给 你 带 来 有 价值 内 容 的 能 
































问题 


如 果 你 对 本 书 内 容 存 有 疑问 ， 不 管 是 哪个 方面 ， 都 可 以 通过 questions@packtpub.com 联 系 我 
们 ， 我 们 将 尽 最 大 努力 来 解决 。 





电子 书 
扫描 如 下 二 维 码 ， 即 可 获得 本 书 电子 版 。 























sio dg 





我 想 感谢 我 挚爱 的 妻子 忍受 我 伦 这 么 长 时 间 来 写 这 本 书 , 如 果 没 有 她 的 支持 , 我 不 可 能 完成 
这 本 书 。 我 也 想 感 谢 我 的 两 个 儿子 ， 没 有 他 们 ， 这 本 书 就 不 会 提前 数 月 完成 。 


最 后 , 我 想 感谢 所 有 审 稿 人 和 编辑 们 。 他 们 帮助 我 使 本 书 成 形 , 并 且 达 到 了 较 高 的 质量 水 平 。 
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就 像 在 12 秒 内 跑 完 100 米 障碍 跑 的 人 在 婴儿 时 期 需要 先 学 候 一 样 ， 程 序 员 在 精通 性 能 分 析 
( profiling ) 之 前 需要 先 了 解 一 些 基 础 知识 。 因 此 ， 在 我 们 探索 Python 程 序 的 性 能 优化 与 分 析 技 术 
之 前 ， 需 要 对 相关 的 基础 知识 有 一 个 清晰 的 认识 。 


只 要 你 掌握 了 这 些 基 础 知识 ， 就 可 以 进一步 学 习 具 体 的 工具 和 技术 。 因 此 , 这 一 章 将 介绍 所 
有 你 平时 闭 于 开口 问 人 却 又 应 该 掌握 的 性 能 分 析 知 识 。 本 章 的 具体 内 容 如 下 。 


a 介绍 性 能 分 析 的 明确 定义 ， 概 述 各 种 性 能 分 析 技 术 。 

口 论述 性 能 分 析 在 开发 周期 中 的 重要 作用 ， 因 为 性 能 分 析 不 是 那 种 只 做 一 次 就 抛 到 脑 后 的 
事情 。 性 能 分 析 应 该 是 开发 过 程 中 一 个 完整 的 组 成 部 分 ， 就 像 写 测试 一 样 。 

a 介绍 哪些 东西 适合 进行 性 能 分 析 。 看 看 我 们 可 以 度量 哪些 资源 ， 以 及 这 些 度量 如 何 帮 助 
我 们 发 现 性 能 瓶颈 。 

口 分 析 过 早 优化 的 风险 ， 即 解释 为 什么 未 经 性 能 分 析 便 对 代码 进行 优化 通常 不 是 一 种 好 做 
法 。 

a 学 习 关 于 程序 运行 时 间 复 杂 性 的 知识 。 虽 然 理解 性 能 分 析 技 术 是 成 功 优化 程序 的 一 个 步 
又 ， 但 我 们 也 需要 理解 算法 复杂 性 的 度量 指标 ， 这 样 才能 够 明白 是 否 有 必要 优化 算法 。 
口 一 些 好 的 做 法 。 本 章 最 后 将 介绍 一 些 对 项 目 进行 性 能 分 析 时 需要 记 住 的 好 习惯 。 
















































































1.1 什么 是 性 能 分 析 


没有 优化 过 的 程序 通常 会 在 某 些 子 程序 (subroutine ) 上 消耗 大 部 分 的 CPU 指令 周期 (CPU 
cycle )。 性 能 分 析 就 是 分 析 代 码 和 它 正 在 使 用 的 资源 之 间 有 着 怎样 的 关系 。 例 如 ， 性 能 分 析 可 以 
告诉 你 一 个 指令 占用 了 多 少 CPU 时 间 , 或 者 整个 程序 消耗 了 多 少 内 存 。 性 能 分 析 是 通过 使 用 一 种 
被 称 为 性 能 分 析 器 (profiler) 的 工具 ， 对 程序 或 者 二 进 制 可 执行 文件 ( 如果 可 以 拿 到 ) 的 源 代码 
进行 调整 来 完成 的 。 

通常 ， 当 需要 优化 程序 性 能 , 或 者 程序 遇 到 了 一 些 奇 怪 的 bug 时 ( 一般 与 内 存 泄 漏 有 关 ), F 
发 者 会 对 他 们 的 程序 进行 性 能 分 析 。 这 时 , 性 能 分 析 可 以 帮助 开发 者 深刻 地 了 解 程序 是 如 何 使 用 
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计算 机 资源 的 ( 即 可 以 细致 到 一 个 函数 被 调用 了 多 少 次 )。 


根据 这 些 信息 , 以 及 对 源 代码 的 深刻 认 知 , 开发 者 就 可 以 找到 程序 的 性 能 瓶颈 或 者 内 存 泄漏 
所 在 ， 然 后 修复 错误 的 代码 。 


— 





生 能 分 析 软 件 有 两 类 方法 论 : 基于 事件 的 性 能 
应 








析 (statistical profiling )。 在 使 用 这 两 类 软件 时 ， 应 


1.1 


UE 





.1 基于 事件 的 性 能 分 析 


不 是 所 有 的 编程 语言 都 支持 这 类 性 能 分 析 。 支持 这 类 基于 事件 的 性 能 分 析 的 编程 语言 主要 有 























或 c_[calll|retu 








分 析 ( event-based profiling ) 和 统计 式 性 能 分 
该 牢记 它们 各 自 的 优 缺点 。 








口 Java: JVMTI (JVM Tools Interface，JVM 工 具 接口 ) 为 性 能 分 析 器 提供 了 钧 子 ， 可 以 跟 
踪 诸如 函数 调用 、 线 程 相关 的 事件 、 类 加 载 之 类 的 事件 。 








cn|exception] ZANE 


O .NET: 和 Java 一 样 ，.NET 运 行 时 提供 了 事件 跟踪 功能 ( https://en.wikibooks.org/wiki/Intro- 
duction to Software Engineering/Testing/Profiling#Methods of data gathering ) 。 
O Python: JF ZdrnTUBsys.setprofilePRZX, HRERpython [calllreturn|exception] 


EF. 


基于 事件 的 性 能 分 析 器 (event-basedprofiler， 也 称 为 轨迹 性 能 分 析 器 ，tracing profiler ) 是 通 
过 收集 程序 执行 过 程 中 的 具体 事件 进行 工作 的 。 这 些 性 能 分 析 器 会 产生 大 量 的 数据 。 基 本 上 , 它 
们 需要 监听 的 事件 越 多 , 产生 的 数据 量 就 越 大 。 这 导致 它们 不 太 实用 , 在 开始 对 程序 进行 性 能 分 
析 时 也 不 是 首选 。 但是, 当 其 他 性 能 分 析 方 法 不 够 用 或 者 不 够 精确 时 , 它们 可 以 作为 最 后 的 选择 。 
你 想 分 析 程 序 中 所 有 返回 语句 的 性 能 , 那么 这 类 性 能 分 析 器 就 可 以 为 你 提供 完成 任务 应 该 有 
的 颗粒 度 ， 而 其 他 性 能 分 析 器 都 不 能 为 你 提供 如 此 细致 的 结 


一 个 Python 基于 事件 的 性 能 分 析 器 的 简单 示例 代码 如 下 所 示 〈 当 学 完 后 面 的 章节 时 ， 你 对 这 
个 主题 的 理解 将 会 更 加 深刻 ): 











import profile 
import sys 


def profiler(frame, 





event, arg): 








print 'PROFILER: %r %r' % (event, arg) 


sys.setprofile(profiler) 


E THERA RAY BR (也 是 非常 低 效 的 ) 示例 


def fib(n): 
if Hiss Du 
return 0 
eliton 22-14 
return 1 





else: 
return fib(n-1) + fib(n-2) 





def fib_seq(n): 
seq = [ ] 
dom meu 
seq.extend(fib_seq(n-1) ) 
seq.append(fib(n) ) 
return seq 


print fib_seq(2) 
上 面 程序 的 输出 结果 如 下 所 示 : 


PROFILER: 'call' None 
PROFILER: 'call' None 
PROFILER: 'call' None 
PROFILER: 'call' None 
PROFILER: 'return' 0 
PROFILER: 'c call' «built-in method append of list object at 0x7f570ca215f0» 
PROFILER: 'c return' «built-in method append of list object at 0x7f570ca215f0» 
PROFILER: 'return' [0] 
PROFILER: 'c call' «built-in method extend of list object at 0x7£570ca21bd8> 
PROFILER: 'c return' «built-in method extend of list object at 0x7£570ca21bd8> 
PROFILER: 'call' None 
PROFILER: 'return' 1 
PROFILER: 'c call' «built-in method append of list object at 0x7£570ca21bd8> 
PROFILER: 'c return' «built-in method append of list object at 0x7£570ca21bd8> 
PROFILER: 'return' [0, 1] 
PROFILER: 'c call' «built-in method extend of list object at 0x7£570ca55bd8> 
PROFILER: 'c return' «built-in method extend of list object at 0x7f570ca55bd8» 
PROFILER: 'call' None 

PROFILER: 'call' None 

PROFILER: 'return' 1 

PROFILER: 'call' None 

PROFILER: 'return' 0 

PROFILER: 'return' 1 

PROFILER: 'c call' «built-in method append of list object at 0x7£570ca55bd8> 
PROFILER: 'c return' «built-in method append of list object at 0x7f570ca55bd8» 
PROFILER: 'return' [0, 1, 1] 

[0, 1, 1] 
PROFILER: 'return' None 

PROFILER: 'call' None 

PROFILER: 'c call' «built-in method discard of set object at 0x7£570ca8a960> 
PROFILER: 'c return' «built-in method discard of set object at 0x7£570ca8a960> 
PROFILER: 'return' None 

PROFILER: 'call' None 

PROFILER: 'c call' «built-in method discard of set object at 0x7f570ca8f£3f0» 
PROFILER: 'c return' «built-in method discard of set object at 0x7f570ca8f3f0» 
PROFILER: 'return' None 


你 会 发 现 ，PROFILER 会 被 每 一 个 事件 调用 。 我 们 可 以 打印 /收集 PRoFILER 函 数 里 我 们 觉 
意义 的 内 容 。 在 上 面 的 简单 示例 代码 中 ， 最 后 一 行 表 示 执 行 Eib_seq(2) 生 成 一 组 数值 。 如 
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我 们 处 理 一 个 实际 点 儿 的 程序 , 性 能 分 析 输 出 的 结果 可 能 要 比 上 述 结 果 大 好 几 个 数量 级 。 这 就 是 
基于 事件 的 性 能 分 析 软 件 通 常 作为 性 能 分 析 的 最 后 选择 的 原因 。 虽然 其 他 性 能 分 析 软 件 ( 马上 就 
会 看 到 ) 产生 的 结果 会 少 很 多 , 但 是 分 析 的 精确 程度 也 要 低 一 些 。 





























1.1.2 统计 式 性 能 分 析 


统计 式 性 能 分 析 需 以 固定 的 时 间 间 隔 对 程序 计数 喜 〈program counter ) 进行 抽样 统计 。 这 样 
做 可 以 让 开发 者 掌握 目标 程序 在 每 个 函数 上 消耗 的 时 间 。 由 于 它 对 程序 计数 器 进行 抽样 ,所 以 数 
据 结果 是 对 真实 值 的 统计 近似 。 不 过 , 这 类 软件 足以 罕见 被 分 析 程序 的 性 能 细节 , 查 出 性 能 瓶颈 
之 所 在 。 

这 类 性 能 分 析 软 件 的 优点 如 下 所 示 。 

口 分 析 的 数据 更 少 : 由 于 我 们 只 对 程序 执行 过 程 进行 抽样 ， 而 不 用 保留 每 一 条 数据 ， 因 此 

需要 分 析 的 信息 量 会 显著 减少 。 

O 对 性 能 造成 的 影响 更 小 : 由 于 使 用 抽样 的 方式 ( 用 操作 系统 中 断 ) ， 目 标 程序 的 性 能 遭 
受 的 干扰 更 小 。 虽 然 使 用 性 能 分 析 器 并 不 能 做 到 100% 无 干扰 ， 但 是 统计 式 性 能 分 析 器 比 
基于 事件 的 性 能 分 析 需 造成 的 干扰 要 小 。 


下 面 是 一 个 Linux 统 计 式 性 能 分 析 器 OProfile ( http://oprofile.sourceforge.nethmews/ ) 的 分 析 结 及 






























































(i 


Function name,File name,Times Encountered,Percentage 
"func80000","statistical profiling.c",30760,48.96$ 
"func40000","statistical profiling.c",17515,27.88$ 
"tune20000',*statie functions .o*,7141,11.37% 
"func10000","static functions.c",3572,5.69$ 
"func5000","static functions.c",1787,2.84$ 
"func2000","static functions.c",768,1.22$ 
"tuncel500'."statustical profilung.c",701.1.12* 
"funcl000", "static_functions.c",385,0.61% 
"func500","statistical_profiling.c",194,0.31% 


下 面 的 性 能 分 析 结 果 ， 是 通过 Python 的 统计 式 性 能 分 析 器 statprof 对 前 面 的 代码 进行 分 析 得 
出 的 : 























% cumulative self 

time seconds seconds name 

100.00 0.01 0.01 3B02088 01 03.py:11:fib 
0.00 0.01 0.00 B02088 01 03.py:17:fib seq 
0.00 0.01 0.00 B02088 01 03.py:21:«module- 


Sample count: 1 
Total time: 0.010000 seconds 


你 会 发 现 ， 两 个 性 能 分 析 器 对 同样 代码 的 分 析 结果 差异 非常 大 。 
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1.2 性 能 分 析 的 重要 性 


现在 我 们 已 经 知道 了 性 能 分 析 的 涵义 , 还 应 该 理解 在 产品 开发 周期 中 进行 性 能 分 析 的 重要 性 
和 实际 意义 。 


性 能 分 析 并 不 是 每 个 程序 都 要 做 的 事情 ,尤其 对 于 那些 小 软件 来 说 ,是 没 多 大 必要 的 (不 像 
那些 杀手 级 名 入 式 软件 或 专门 用 于 演示 的 性 能 分 析 程 序 )。 性 能 分 析 需 要 花 时 间 ， 而 且 只 有 在 程 
序 中 发 现 了 错误 的 时 候 才 有 用 。 但 是 ,仍然 可 以 在 此 之 前 进行 性 能 分 析 ， 捕 获 潜在 的 bug， 这 样 
可 以 节省 后 期 的 程序 调试 时 间 。 


在 硬件 变 得 越 来 越 先进 、 越 来 越 快速 量 越 来 越 便宜 的 今天 ， 开 发 者 自然 也 越 来 越 难以 理解 ， 
为 什么 我 们 还 要 消耗 资源 ( 主要 是 时 间 ) 去 对 开发 的 产品 进行 性 能 分 析 。 毕 竞 , 我 们 已 经 拥有 测 
试 驱动 开发 、 代 码 审 查 、 结 对 编程 ， 以 及 其 他 让 代码 更 加 可 靠 且 符合 预期 的 手段 。 难 道 不 是 吗 ? 


然而 , 我 们 没有 意识 到 的 是 ， 随 着 我 们 使 用 的 编程 语言 越 来 越 高 级 ( 几 年 间 我 们 就 从 汇编 语 
言 进化 到 了 JavaScript )， 我 们 愈加 不 关心 CPU 循环 周期 、 内 存 配置 、CPU 寄 存 器 等 底层 细节 了 。 
新 一 代 程序 员 都 通过 高 级 语言 学 习 编 程 技术 , 因为 它们 更 容易 理解 而 且 开 箱 即 用 。 但 它们 依然 是 
对 硬件 和 与 硬件 交互 行为 的 抽象 。 随 着 这 种 趋势 的 增长 , 新 的 开发 者 越 来 越 不 会 将 性 能 分 析 作 为 
软件 开发 中 的 一 个 步骤 了 。 


让 我 们 看 看 下 面 这 种 情景 。 


我 们 已 经 知道 , 性 能 分 析 是 用 来 测量 程序 所 使 用 的 资源 的 。 前 面 已 经 说 过 ,资源 正 变 得 越 来 
越 便宜 。 因 此 ， 生 产 软件 并 让 更 多 的 客户 使 用 我 们 的 软件 ， 其 成 本 变 得 越 来 越 低 。 


WS, 随便 开发 一 个 软件 就 可 以 获得 上 千 用 户 。 如 果 通 过 社交 网 络 一 推广 ， 用户 可 能 马上 就 
会 呈 指 数 级 增长 。 一 旦 用 户 量 激增 , 程序 通常 会 月 演 , 或 者 变 得 异常 缓慢 , 最 终 被 客户 无 情 抛 弃 。 


上 面 这 种 情况 , 显然 可 能 是 由 于 糟糕 的 软件 设计 和 缺乏 扩展 性 的 架构 造成 的 。 毕 竞 , 一 台 服 
务 器 有 限 的 内 存 和 CPU 资源 也 可 能 会 成 为 软件 的 瓶颈 。 但 是 ， 另 一 种 可 能 的 原因 ,， 也 是 被 证 明 过 
许多 次 的 原因 ， 就 是 我 们 的 程序 没有 做 过 压力 测试 。 我 们 没有 考虑 过 资源 消耗 情况 ; 我 们 只 保证 
了 测试 已 经 通过 ， 而 且 乐此不疲 。 也 就 是 说 ， 我 们 目光 短 浅 ， 结 果 就 是 项 目 骨 溃 天 折 。 


性 能 分 析 可 以 帮助 我 们 避免 项 目前 溃 天 折 , 因为 它 可 以 相当 准确 地 为 我 们 展示 程序 运行 的 情 
况 ， 不 论 负 载 情况 如 何 。 因 此 ， 如 果 在 负载 非常 低 的 情况 下 ， 通 过 性 能 分 析 发 现 软 件 在 IO 操作 
上 消耗 了 80% 的 时 间 , 那么 这 就 给 了 我 们 一 个 提示 。 有 人 可 能 觉得 , 在 测试 阶段 程序 运行 很 正常 ， 
在 负载 很 重 的 情况 下 也 应 该 不 会 有 问题 。 想 想 内 存 泄 漏 的 情况 吧 。 在 这 种 情况 下 ,小 测试 是 不 会 
发 现 大 负载 里 出 现 的 bug 的 。 但 是 ， 产 品 负载 过 重 时 ， 内 存 泄 漏 就 会 发 生 。 人 性 能 分 析 可 以 在 负载 
真 的 过 重 之 前 ， 为 我 们 提供 足够 的 证 据 来 发 现 这 类 隐患 。 
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1.3 性 能 分 析 可 以 分 析 什 么 


要 想 深 入 地 理解 性 能 分 析 , 很 重要 的 一 点 是 明白 性 能 分 析 方 法 究竟 能 够 分 析 什 么 指标 。 因 为 
能 分 析 的 核心 ， 所 以 让 我 们 仔细 看 看 程序 运行 时 可 以 测量 的 指标 。 























1.3.1 运行 时 间 


做 性 能 分 析 时 , 我 们 能 够 收集 到 的 最 基本 的 数值 就 是 运行 时 间 。 整 个 进程 或 代码 中 某 个 片段 
的 运行 时 间 会 暴露 相应 的 性 能 。 如 果 你 对 运行 的 程序 有 一 些 经 验 ( 比如 说 你 是 一 个 网 络 开 发 者 ， 
正在 使 用 一 个 网 络 框架 )， 可 能 很 清楚 运行 时 间 是 不 是 太 长 。 例 如 ， 一 个 简单 的 网 络 服务 器 查询 
数据 库 、 响 应 结果 、 反 馈 到 客户 端 ， 一 共 需 要 100 毫 秒 。 但 是 ， 如 果 程 序 运行 得 很 慢 ， 做 同样 的 
帮 情 需要 花费 60 秒 ， 你 就 得 考虑 做 性 能 分 析 了 。 你 还 需要 考虑 不 同 场景 的 可 比 性 。 再 考虑 另 一 个 
进程 : 一 个 MapReduce 任 务 把 2TB 数 据 存储 到 文件 中 要 消耗 20 分 钟 ， 这 时 你 可 能 不 会 认为 进程 很 
慢 了 ， 即 使 它 比 之 前 的 网 络 服务 器 处 理 时 间 要 长 很 多 。 


为 了 获得 运行 时 间 , 你 不 需要 拥有 大 量 性 能 分 析 经 验 和 一 堆 复 杂 的 分 析 工 具 。 你 只 需要 把 几 
行 代 码 加 入 程序 运行 就 可 以 了 。 


例如 ， 下 面 的 代码 会 计算 斐 波 那 契 数 列 的 前 30 位 : 


import datetime 







































































iini 















































tstart - None 
tend - None 


def start time(): 
global tstart 
tstart - datetime.datetime.now() 


def get delta(): 
global tstart 
tend - datetime.datetime.now() 
return tend - tstart 


def fib(n): 
return n if n == 0 or n == 1 else fib(n-1) + fib(n-2) 


def fib seq(n): 
seq - [] 
if n» 0: 
seq.extend(fib_seq(n-1) ) 
seq.append(fib(n) ) 
return seq 
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start time() 
print "About to calculate the fibonacci sequence for the number 30" 
deltal = get delta() 





start time() 
seq - fib seq(30) 
delta2 = get delta() 


print "Now we print the numbers: " 
start, time() 
for n in seq: 
print n 
delta3 - get delta() 


print /T= Profiling results msemekzeut 

print "Time required to print a simple message: %(deltal)s" $ locals() 

print "Time required to calculate fibonacci: $(delta2)s" $ locals() 

print "Time required to iterate and print the numbers: %(delta3)s" % locals() 
print *"sssszz, 2-2" 


程序 的 输出 结果 如 下 所 示 : 





About to calculate the Fibonacci sequence for the number 30 
Now we print the numbers: 


121393 

196418 

317811 

514229 

832040 

====== Profiling results ======= 

Time required to print a simple message: 0:00:00.000030 

Time required to calculate fibonacci: 0:00:00.642092 

Time required to iterate and print the numbers: 0:00:00.000102 


通过 最 后 三 行 结果 ， 我 们 会 发 现 ， 代 码 中 最 费时 的 部 分 就 是 斐 波 那 契 数列 的 计算 。 











下 载 源 代 码 


出 版 社 的 所 有 图 书 的 示例 代码 。 如 果 你 是 在 其 他 地 方 购买 的 Packt 出 版 社 的 书籍 ， 
可 以 通过 http:/www.packtpub.com/support 注 册 账 户 , 然 后 要 求 Packt 把 示例 代码 通 
过 邮件 发 给 你 。 


总 你 可 以 用 自己 的 账户 登录 http://www.packtpub.com， 下 载 你 购买 过 的 Packt 


1.3.2 ”瓶颈 在 哪里 


只 要 你 测量 出 了 程序 的 运行 时 间 ， 就 可 以 把 注意 力 移 到 运行 慢 的 环节 上 做 性 能 分 析 。 通 常 ， 
瓶颈 都 是 由 下 面 的 一 种 或 几 种 原因 造成 的 。 


O 沉重 的 WO 操作 ， 比 如 读 取 和 分 析 大 文件 ， 长 时 间 执行 数据 库 查询 ， 调 用 外 部 服务 ( 比如 
HTTP 请 求 )， 等 等 。 

a 出 现 了 内 存 泄漏 ， 消 耗 了 所 有 的 内 存 ， 导 致 后 面 的 程序 没有 内 存 来 正常 执行 。 

O 未 经 优化 的 代码 被 频繁 地 执行。 

O 密集 的 操作 在 可 以 缓存 时 没有 缓存 ， 占 用 了 大 量 资源 。 

VO 关联 的 代码 (文件 读 / 写 、 数 据 库 查 询 等 ) 很 难 优化 , 因为 优化 有 可 能 会 改变 程序 执行 IO 
操作 的 方式 ( 通常 是 语言 的 核心 函数 操作 IO )。 相 反 ， 优 化 计算 关联 的 代码 ( 比如 程序 使 用 的 
算法 很 糟糕 )， 改 善 性 能 会 比较 容易 ( 并 不 一 定 很 简单 )。 这 是 因为 优化 计算 关联 的 代码 就 是 改 
写 程序 。 


在 性 能 优化 接近 尾声 的 时 候 ， 剩 下 的 大 多 数 性 能 瓶颈 都 是 由 IO 关联 的 代码 造成 的 。 







































































































































































1.4 ”内 存 消耗 和 内 存 泄漏 

软件 开发 过 程 中 需要 考虑 的 男 一 个 重要 资源 是 内 存 。 一 般 的 软件 开发 者 不 会 意识 到 这 一 点 ， 
因为 640KB RAM 电 脑 的 时 代 早 已 成 为 过 去 。 但 是 一 个 内 存 泄漏 的 程序 会 把 服务 器 糟 踊 成 640KB 
电脑 。 内 存 消 耗 不 仅仅 是 关注 程序 使 用 了 多 少 内 存 ， 还 应 该 考虑 控制 程序 使 用 内 存 的 数量 。 
有 一 些 开发 项 目 ， 比 如 上 能 入 式 系统 开发 ， 就 会 要 求 开 发 者 关注 内 存 配置 ， 因 为 这 类 系统 的 资 
源 是 相当 有 限 的 。 但 是 ， 普 通 开 发 者 总 希望 目标 系统 能 够 提供 他 们 需要 的 RAM。 

随 着 RAM 和 高 级 编程 语言 都 开始 支持 自动 内 存 管理 C 比如 垃圾 回收 机 制 )， 开 发 者 不 需要 关 
注 内 存 优 化 了 ， 系 统 会 帮忙 完成 的 。 

跟踪 程序 内 存 的 消耗 情况 比较 简单 。 最 基本 的 方法 就 是 使 用 操作 系统 的 任务 管理 器 。 它 会 显 
示 很 多 信息 , 包括 程序 占用 的 内 存 数量 或 者 占用 总 内 存 的 百分比 。 任 务 管理 器 也 是 检查 CPU 时 间 
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使 用 情况 的 好 工具 。 在 下 面 的 截图 








平 占用 了 全 部 CPU ( 99.8% )， 内 存 只 用 了 0.1%。 





Activities 


top - 23:48:31 up 7 days, 14:2 
2 running, 


Tasks: 316 total, 
( 35.2 u5; 
7945412 total, 

KiB Swap: 8155132 total, 


fernando 
fernando 
root 
fernando 
fernando 
fernando 
fernando 
fernando 
fernando 
fernando 
fernando 
fernando 
fernando 
fernando 
fernando 
fernando 
fernando 
root 

2 root 
root 
root 
root 
root 
root 
root 
root 
root 
root 
root 
root 
root 
root 














0.8 


0 
9 
9 
9 
9 
9 
8 
9 
9 
9 
9 
9 
8 
9 
9 
9 
9 
0 
9 
9 
-20 
9 
9 
9 
9 
9 
9 
9 
0 
9 
0 
9 


sy, 0. 


40228 
2124352 
873972 
3210628 
792124 


2, 1 user, 


313 sleeping, 
0 ni, 78.3 id, 


7722946 used, 
2503856 used, 


5564 
252696 
230080 
1.328g 

91796 


1041804 305700 


771384 
396220 
771384 
200952 
446296 
781660 
2053884 
2772532 
957004 
585360 
703200 
34012 


@eoooocooccooococo 


19284 
47876 
19156 
1232 
4412 
11172 
304428 
618964 
48140 
2668 
25092 
2352 

8 


eooooocoocoeocoooo 


198948 
24340 
15036 
67784 

6372 
1248 
6308 
696 
2576 
5616 
41080 
124452 
4028 
1412 
7212 
800 


© 


DOODOOOOOOODOOD 


load average: 


1 stopped, 


5.8 wa, 
222472 free, 
5651276 free. 


m 
oO x 


OOOODOOOOOOOOOOOOOOOOOOOOOOOPNNYN RUE] 


SeooocooooC OCC OCOWWWWWWWWHNtWWrnwWwwoed 


6.6 hi, 


oR BoBoBoBoBo Bo Bo Bo BoBo Bo Baio Bi «ie Be-Be- kom wo Rs = 


0.63, 
9 zombie 
0.0 si, 0.0 st 


Wed 23:48 
0.44 


27616 buffers 
1587528 cached Mem 


@oooocooroornoooco 


gnome-shell 
Xorg 

firefox 
skype 

chrome 
chrome 
ibus-daemon 
chrome 
ibus-engine-sim 
pulseaudio 
guake 

chrome 
chrome 
plugin-containe 
GoogleTalkPlugi 
chrome 

init 
kthreadd 
ksoftirqd/0 
kworker/0:0H 
rcu sched 
rcuos/0 
rcuos/1 
rcuos/2 
rcuos/3 
rcuos/4 
rcuos/5 
rcuos/6 
rcuos/7 

rcu bh 
rcuob/0 





Ph ， 你 会 发 现 一 个 简单 的 Python 程序 〈 就 是 前 面 那 段 程序 ) JL 


用 这 样 的 工具 ( Linux 系 统 在 命令 行 用 top 命 令 )， 可 以 轻松 检测 内 存 泄漏 问题 ， 不 过 这 也 要 








根据 程序 的 具体 


与 那些 没有 频繁 使 用 外 部 资源 的 程序 不 同 。 
例如 ,如 果 我 们 把 一 个 调 月 




















下 图 所 示 。 
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你 的 程序 在 持续 加 载 数据 , 那么 其 内 存 消 耗 的 比例 , 可 











Abk A 
能 会 


大 量 外 部 资源 的 程序 的 内 存 消耗 随时 间 的 变化 描绘 出 来 , 可 能 如 




















| 第 一 个 资源 
pne 





第 二 个 资源 ` 
内 存 释 放 时 








是 一 一 无 资源 加 载 时 的 平均 内 存 消耗 


运行 时 间 (4) 





| | b d 
第 一 个 资 。 第 一 个 次 第 = 个 次 
at KIR 








资源 加 载 时 ， 内 存 使 用 曲线 出 现 高 峰 ; 资源 释放 时 ， 曲 线 会 下 降 。 虽 然 程序 的 内 存 消耗 变化 


有 点 儿 大 , 但 是 我 们 可 以 统计 没有 加 载 资源 时 程序 的 内 存 消耗 的 平均 值 。 只 要 确定 了 这 个 平均 值 
C 图 中 用 和 矩形 表示 )， 就 可 以 判断 内 存 泄漏 的 情况 。 






































让 我 们 再 看 一 个 资源 加 载 效果 比较 糟糕 的 程序 的 内 存 消耗 图 (没有 完全 释放 资源 )。 
第 二 个 资源 
不 释放 























内 存 消耗 













和 是 一 一 无 资源 加 载 时 的 平均 内 存 消耗 


运行 时 间 (2) 





| | | 
"EP 第 一 个 次 第 三 外 次 
源 加 载 时 源 加 载 时 源 加 载 时 

在 上 图 中 你 会 发 现 ,每 当 资 源 不 再 使 用 时 ， 占 用 的 内 存 并 没有 完全 释放 ,这 时 内 存 消耗 曲线 

就 会 位 于 矩形 之 上 。 这 就 表示 程序 会 消耗 越 来 越 多 的 内 存 ， 即 使 加 载 资 源 已 经 释放 也 是 如 此 。 








同 理 , 也 可 以 检测 那些 没有 负载 的 程序 的 内 存 消耗 情况 , 把 执行 特定 任务 的 程序 运行 一 段 时 
间 。 有 了 数据 ， 就 很 容易 检测 内 存 消耗 和 内 存 泄漏 情况 了 。 


让 我 们 来 看 一 个 例子 : 
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内 存 消耗 






有一 运行 过 程 中 内 存 消耗 的 平均 值 


1 xs (4) 
运行 过 程 启动 
当 运 行 过 程 启动 之 后 ,内 存 消耗 会 在 一 个 范围 内 不 断 增 加 。 如 果 发 现 增幅 超出 范围 ,而 且 消 
耗 增 大 之 后 一 直 没 有 回落 ， 就 可 以 判断 出 现 内 存 泄漏 了 。 


一 个 内 存 泄 漏 的 例子 如 下 图 所 示 。 




















内 存 消耗 


及 一 一 运行 过 程 中 内 存 消 耗 的 平均 值 





运行 时 间 ) 


运行 过 程 启动 





1.5 ”过 早 优 化 的 风险 


优化 通常 被 认为 是 一 个 好 习惯 。 但 是 ， 如 果 一 味 优化 反而 违背 了 软件 的 设计 原则 就 不 好 了 。 
在 开始 开发 一 个 新 软件 时 ， 开 发 者 经 常 犯 的 错误 就 是 过 早 优化 ( permature optimization )。 

如 果 过 早 优化 代码 ,结果 可 能 会 和 原来 的 代码 截然 不 同 。 它 可 能 只 是 完整 解决 方案 的 一 部 分 ， 
还 可 能 包含 因 优化 驱动 的 设计 决策 而 导致 的 错误 。 
一 条 经 验 法 则 是 ， 如 果 你 还 没有 对 代码 做 过 测量 〈 性 能 分 析 )， 优 化 往往 不 是 个 好 主意 。 首 
， 应 该 集中 精力 完成 代码 ， 然 后 通过 性 能 分 析 发 现 真正 的 性 能 瓶颈 ， 最 后 对 代码 进行 优化 。 
































er 
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1.6 ”运行 时 间 复 杂 度 

在 进行 性 能 分 析 和 优化 时 ,理解 运行 时 间 复 杂 度 (Running Time Complexity, RTC ) 的 知识 ， 
以 及 学 习 使 用 它们 适当 地 优化 代码 十 分 重要 。 

RTC 可 以 用 来 对 算法 的 运行 时 间 进 行 量化 。 它 是 对 算法 在 一 定数 量 输入 条 件 下 的 运行 时 间 进 
行 数学 近似 的 结果 。 因 为 是 数学 近似 ， 所 以 我 们 可 以 用 这 些 数值 对 算法 进行 分 类 。 

RTC 常 用 的 表示 方法 是 大 0 标记 (big O notation )。 数 学 上 ， 大 0 标记 用 于 表示 包含 无 限 项 的 
函数 的 有 限 特征 ( 类 似 于 泰勒 展开 式 )。 如 果 把 这 个 概念 用 于 计算 机 科学 ， 就 可 以 把 算法 的 运行 
时 间 描 述 成 渐进 的 有 限 特 征 ( 数量 级 )。 

也 就 是 说 , 这 种 标记 通过 宽泛 的 估计 ,让 我 们 了 解 算法 在 任意 数量 输入 下 的 运行 时 间 。 但 是 
它 不 能 提供 精确 的 时 间 值 ， 需 要 对 代码 进行 深入 的 分 析 才 能 获得 。 

前 面 说 过 ， 用 这 种 标记 方法 可 以 对 算法 进行 分 类 ， 下 面 就 是 常用 的 算法 类 型 。 



















































































1.6.1 常数 时 间 一 一 O(1) 
常数 时 间 (constant time ) 是 最 简单 的 算法 复杂 度 类 型 。 这 基本 上 表示 我 们 的 测量 结果 将 是 
恒定 值 ， 算 法 运行 时 间 不 会 随 着 输入 的 增加 而 增加 。 
运行 时 间 为 0(1) 的 代码 示例 如 下 所 示 。 
口 判断 一 个 数 是 奇数 还 是 偶数 : 
if number $ 2: 
odd = True 


else: 
odd = False 


口 用 标准 输出 方式 打印 信息 : 




















print "Hello world!" 


对 于 理论 上 更 复杂 的 操作 ， 比 如 在 字典 ( 或 哈 希 表 ) 中 查找 一 个 键 的 值 ， 如 果 算 法 合理 ， 就 
可 以 在 常数 时 间 内 完成 。 技 术 上 看 ， 在 哈 希 表 中 查找 元 素 的 消耗 时 间 是 O(D 平 均 时 间 ， 这 意味 着 
每 次 操作 的 平均 时 间 ( 不 考虑 特殊 情况 ) 是 固定 值 0(1)。 

















1.6.2 ”线性 时 间 一 一 O(n) 
线性 时 间 复 杂 度 表示 , 在 任意 n 个 输入 下 , 算法 的 运行 时 间 与 4 呈 线 性 关系 , 例如 ,3n, 4n+5， 


等 等 。 





























如 上 图 所 示 ， 当 x 轴 无 线 延 伸 时 ， 蓝 线 (3n) 和 红线 ( 4n+5 ) 会 和 黑 线 Cn ) 达到 同样 的 上 限 。 
因此 ， 为 了 简化 ， 我 们 把 这 些 算法 都 看 成 O(n) 类 。 

这 种 数量 级 (order) 的 算法 案例 有 : 
口 查找 无 序列 表 中 的 最 小 元 素 
OQ 比较 两 个 字符 串 
口 删除 链表 中 的 最 后 一 项 














1.6.3 ”对 数 时 间 一 一 O(logn) 

对 数 时 间 (logarithmic time ) 复杂 度 的 算法 ， 表 示 随 着 输入 数量 的 增加 ， 算 法 的 运行 时 间 会 
达到 固定 的 上 限 。 随 着 输入 数量 的 增加 ， 对 数 函数 开始 增长 很 快 ， 然 后 慢 慢 减速 。 它 不 会 停止 增 
长 ， 但 是 越 往 后 增长 的 速度 越 慢 ， 甚 至 可 以 忽略 不 计 。 












































上 图 显示 了 三 种 不 同 的 对 数 函 数 。 你 会 看 到 三 条 线 都 是 同样 的 形状 ， 随 着 x 的 增 大 ， 都 是 无 
限 增加 的 。 
对 数 时 间 的 算法 示例 如 下 所 示 : 


口 二 分 查找 (binary search ) 
口 计算 韭 波 那 契 数列 ( 用 和 矩阵 乘法 ) 














1.6.4 ”线性 对 数 时 间 一 一 O(nlogn) 
把 前 面 两 种 时 间 类 型 组 合 起 来 就 变 成 了 线性 对 数 时 间 (linearithmic time )。 随 着 x 的 增 大 ， 算 
法 的 运行 时 间 会 快速 增长 。 


这 类 算法 的 示例 如 下 所 示 : 











口 归并 排序 ( merge sort ) 
口 堆 排序 (heap sort ) 
OQ 快速 排序 (quick sort， 至 少 是 平均 运行 时 间 ) 


下 图 中 的 线性 对 数 函 数 曲 线 可 以 让 我 们 更 好 地 理解 这 类 算法 。 















































1.6.5 ”阶乘 时 间 一 一 O(n!) 
阶乘 时 间 ( factorial time ) 复杂 度 的 算法 是 最 差 的 算法 。 其 时 间 增 速 特别 快 ， 图 都 很 难 画 。 
下 图 是 对 阶乘 函数 的 近似 描述 ， 可 以 看 成 这 类 算法 的 运行 时 间 。 






































阶乘 时 间 复 杂 度 的 一 个 示例 ， 就 是 用 暴力 破解 搜索 方法 解 货 郎 担 问 题 〈 遍 历 所 有 可 能 的 路 
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1.6.0 平方 时 间 一 一 O(n?) 


平方 时 间 是 男 一 个 快速 增长 的 时 间 复 杂 度 。 输入 数量 越 多 , 需要 消耗 的 时 间 越 长 ( 大 多 数 算 
法 都 是 这 样 ， 这 类 算法 尤其 如 此 )。 平方 时 间 复 杂 度 的 运行 效率 比 线性 时 间 复 杂 度 要 慢 。 


这 类 算法 的 示例 如 下 : 


Q 冒 泡 排序 (bubble sort ) 
口 遍历 二 维 数组 
口 插入 排序 (insertion sort ) 


这 类 函数 的 曲线 图 如 下 所 示 : 












































最 后 ， 我 们 把 所 有 算法 运行 时 间 复 杂 度 放 在 一 张 图 上 ， 比 较 一 下 运行 效率 : 






























































不 考虑 常数 时 间 复 杂 度 (虽然 它 是 最 快 的 ， 但 是 显然 复杂 算法 都 不 可 能 达到 这 个 速度 )， 那 
4 间 复 杂 度 排序 如 下 所 示 : 


口 对 数 
口 线性 
口 线性 对 数 
O 平方 
口 阶乘 


有 时 候 , 你 可 能 也 没 办 法 ， 只 能 选择 平方 时 间 复 杂 度 作为 最 佳 解决 方案 。 理论 上 我 们 总 是 希 
望 实现 更 快速 的 算法 ,但 是 问题 和 技术 的 限制 往往 会 影响 结果 。 


| 注意 ， 平 方 时 间 类 型 与 阶乘 时 间 类 型 之 间 ， 有 一 些 变 体 ， 如 三 次 方 时 间 类 ] 
~ 一 型 、 F 





p» 
4 











四 次 方 时 间 类 型 等 。 




















还 有 很 重要 的 一 点 需要 考虑 ， 就 是 算法 的 时 间 复 杂 度 往往 不 止 一 种 类 型 ， 可 能 是 三 种 类 型 ， 
包括 最 好 情况 、 正 常情 况 和 最 差 情 况 。 三 种 情况 是 由 输入 条 件 的 不 同属 性 决定 的 。 例 如 ， 如 果 结 
果 已 经 排序 ， 插 入 排序 算法 的 运行 速度 会 比较 快 〈 最 好 情况 )， 其 他 情况 则 要 更 慢 一 些 〈 指数 复 


杂 度 )。 


男 外 数据 类 型 也 会 影响 时 间 复 杂 度 。 算 法 运行 时 间 复 杂 度 也 与 实际 的 操作 方式 有 关 ( 索引 、 
插入 、 搜 索 等 )。 常 见 的 数据 类 型 和 操作 的 时 间 复 杂 度 如 下 所 示 。 










































































时 间 复 杂 度 
数据 结构 正常 情况 最 差 情况 

索引 查找 插入 删除 索引 查找 | 插入 | 删除 
列表 (list) O(1) O(n) - - o(1) On) | - - 
单 向 链表 (linked list) O(n) O(n) O(1) o(1) O(n) O(n) o) | On) 
双向 链表 (doubly linked list) O(n) O(n) O(1) O(1) O(n) O(n) O(1) | OQ) 
字典 (dictionary) E O(1) O(1) O(1) = O(n) O(n) | O(n) 
二 分 查找 树 (Binary Search O(log(n) | O(log(n)) | O(log(?) | Cdog(0D)) | Ol) O(n) O(n) | On) 
Tree, BST) 


1.7 性 能 分 析 最 佳 实 践 


性 能 分 析 是 重复 性 的 工作 。 为 了 获得 最 佳 性 能 , 你 可 能 需要 在 一 个 项 目 中 做 很 多 次 性 能 分 析 ， 
在 另 一 个 项 目 里 还 要 再 做 一 次 。 和 软件 开发 中 的 其 他 重复 性 任务 一 样 , 有 许多 最 佳 实践 可 以 帮助 
你 高 效 地 完成 大 多 数 性 能 分 析 工 作 。 让 我 们 来 具体 看 看 。 














1.7.1 建立 回归 测试 套件 


在 进行 性 能 优化 时 ， 需 要 保证 不 管 代 码 怎么 变化 ,功能 都 不 会 变 糟 。 最 好 的 做 法 ,尤其 是 面 
对 大 型 项 目 时 ,就 是 建立 测试 套件 。 确 保 代码 具有 足够 的 覆盖 率 ， 可 以 让 你 信心 去 优化 。 和 覆盖 率 
只 有 60% 的 测试 套件 在 优化 时 可 能 会 导致 严重 后 果 。 


回归 测试 套件 可 以 保证 你 在 代码 中 尝试 任何 优化 时 ， 都 不 用 担心 代码 的 结构 被 破坏 。 




















1.7.2 思考 代码 结构 


函数 代码 之 所 以 容易 进行 重 构 (refactor )， 是 因为 这 种 代码 结构 没有 副作用 。 这 样 可 以 降低 
改变 系统 中 其 他 部 分 的 风险 。 如 果 你 的 代码 没有 局 部 可 变 的 状态 ， 将 是 另 一 个 优势 。 这 是 因为 ， 
代码 应 该 很 容易 理解 和 改变 。 没 有 按照 前 面 的 规则 编写 的 代码 , 在 重 构 过 程 中 可 能 都 需要 额外 的 
工作 和 注意 。 



































1.7.3 ”耐心 


性 能 分 析 不 是 一 个 快速 、 简 单 、 精 确 的 过 程 。 也 就 是 说 ， 你 不 能 指望 运行 一 下 性 能 分 线 器 就 
可 以 把 问题 找到 。 有 时 候 也 许可 以 这 样 。 但 是 ,大 多 数 情 况 下 ， 你 遇 到 的 问题 都 不 是 很 容易 解决 
的 。 这 就 表明 你 必须 浏览 数据 ， 描 绘图 形 以 便 理解 ,不断 地 缩小 检测 范围 ,直到 你 重新 开启 新 一 
轮 分 析 ， 或 者 最 终 找 到 问题 所 在 。 
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值得 注意 的 是 ,对 数据 分 析 得 越 深 入 ,表明 你 陷入 的 坑 越 深 , 数据 将 无 法 指明 正确 的 优化 方 
向 ， 因 此 要 时 刻 清 楚 自 己 的 目标 , 并 且 在 你 开始 之 前 已 准备 好 正确 的 工具 。 然而 , 也 可 能 搞 了 半 
天 除了 备 受挫 折 ， 什 么 进展 也 没有 。 











1.7.4 尽 可 能 多 地 收集 数据 


根据 软件 的 不 同类 型 和 规模 ,在 分 析 之 前 ,你 可 能 需要 获取 尽量 多 的 数据 。 性 能 分 析 融 很 适 
合 做 这 件 事 。 但是, 还 有 其 他 数据 资源 , 如 网 络 应 用 的 系统 日 志 、 自 定义 日 志 、 系 统 资源 快照 ( 如 
操作 系统 任务 管理 器 )， 等 等 。 














1.7.5 数据 预 处理 

当 你 拥有 了 性 能 分 析 器 的 信息 、 日 志和 其 他 资源 之 后 , 在 分 析 之 前 可 能 需要 对 数据 进行 预 处 
理 。 不 要 因为 性 能 分 析 器 不 能 理解 就 回避 非 结构 化 数据 。 数 据 分 析 会 往往 从 其 他 数据 中 受益 。 
例如 ,如 果 分 析 网 络 应 用 的 性 能 ,获取 网 络 服务 器 日 志 是 个 不 错 的 主意 , 但 是 这 些 日 志文 件 


就 是 一 行 一 个 请 求 。 解 析 文 件 并 把 数据 存 人 数据 库 系统 ( 像 MongoDB 、MySQL 等 )， 你 就 可 以 为 
数据 确定 含义 【解析 日 期 数据 ， 通 过 IP 获 溯源 地 理 位 置 等 )， 并 在 后 面 进行 查询 。 















































前 面 这 个 过 程 称 为 ETL ( extracting the data from it’s sources, transforming it into something with 
meaning, and loading it into another system )， 表 示 从 源 抽取 数据 ， 根 据 数据 含义 转换 形式 ， 并 加 载 
到 其 他 系统 中 使 用 。 


1.7.6 数据 可 视 化 


如 果 在 错误 发 生 之 前 ,你 不 清楚 自己 要 找 的 问题 ， 只 是 想 知 道 优 化 代码 的 方式 ,那么 洞察 你 
已 经 预 处 理 过 的 数据 的 最 好 方式 就 是 数据 可 视 化 。 计算 机 很 擅长 处 理 数 据 , 但 是 人 类 擅 于 通过 图 
像 来 发 现 模式 和 理解 现 有 信息 中 的 某 种 特征 。 


例如 ， 继 续 前 面 的 网 络 服务 器 日 志 示例 ， 一 个 简单 的 请 求 时间 图 C 比如 在 微软 的 Excel 中 绘 
制 ) 就 可 以 显示 客户 行为 的 某 种 特征 : 















































请 求 数 
0am 4am 12am 4pm 8pm 12pm 时 间 (小 时 ) 
上 图 很 清晰 地 显示 出 客户 访问 集中 在 下 午 晚 些 时 候 , 并 持续 到 深夜 。 后 面 你 可 以 进一步 针对 





这 个 特征 进行 性 能 分 析 。 例 如, 针对 这 种 现象 的 优化 方案 , 可 能 就 是 在 高 峰 期 为 基础 设施 增加 更 
多 资源 ( 像 亚 马 逊 的 AWS 可 以 满足 这 类 需求 )。 


另 一 个 例子 是 用 自 定义 性 能 分 析 数 据 可 以 画 出 下 图 : 























函数 调用 








B return c call  Xcall c return 
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上 图 是 对 本 章 第 一 个 代码 示例 的 性 能 分 析 结果 中 那些 触发 profile 函 数 的 事件 进行 数量 统 ERST 
计 。 我 们 可 以 把 它 画 成 饼 图 ， 直 观 地 看 出 数量 最 多 的 事件 。 可 以 看 出 ， 调 用 call 和 return 占 用 
了 程序 运行 的 绝 大 多 数 时 间 。 











1.8 小 结 





在 这 一 章 , 我 们 介绍 了 性 能 分 析 的 基础 知识 , 理解 了 性 能 分 析 方 法 及 其 重要 性 , 并 学 会 了 如 
何 使 用 它 分 析 大 多 数 代 码 的 性 能 。 





下 一 章 我 们 将 动手 试 试 Python 的 性 能 分 析 器 ， 看 看 它们 是 如 何 对 应 用 进行 性 能 分 析 的 。 


性 能 分 析 器 











上 一 章 介 绍 了 性 能 分 析 的 基础 知识 , 展示 了 性 能 分 析 的 重要 性 。 如 果 把 性 能 分 析 方 法 整合 到 
开发 过 程 中 ,就 可 以 帮助 我 们 提高 产品 的 开发 质量 。 男 外 ， 上 一 章 还 介绍 了 一 些 性 能 分 析 的 具体 
方法 。 

上 一 章 在 最 后 介绍 了 程序 运行 时 间 复 杂 度 的 相关 理论 ,在 这 一 章 ,我 们 将 会 用 到 第 一 部 分 ( 关 
于 性 能 分 析 的 内 容 ), 之后， 我 们 将 通过 两 个 Python 性 能 分 析 器 (cProfile 和 1line_profiler ), 
把 学 到 的 理论 付 诸 实践 。 

本 意 将 介绍 以 下 内 容 : 

口 性 能 分 析 器 的 基本 信息 

口 性 能 分 析 器 的 下 载 和 安装 方法 
口 通过 示例 演示 性 能 分 析 器 的 功能 
OQ 比较 两 种 性 能 分 析 器 的 差异 




















2.1 认识 新 朋友 : 性 能 分 析 器 

学 完 上 一 章 所 有 的 理论 和 简单 示例 之 后 ,我 们 应 该 看 看 真正 的 Python 了 。 我们 先 来 看 看 目前 
最 受 关注 也 是 用 户 最 多 的 两 个 Python 性 能 分 析 需 : cProfile 和 1ine_profiler。 两 者 将 通过 不 
同 的 方式 帮助 我 们 分 析 代 码 的 性 能 。 

cProfile (https://docs.python.org/2/library/profile.html#module-cProfile ) 从 Python 2.5 开 始 就 


是 该 语言 默认 的 性 能 分 析 器 , 官方 推荐 在 绝 大 多 数 场景 中 使 用 。 而 1ine_profiler(https:/github. 
com/rkern/line_profiler ) 虽然 不 是 Python 官方 发 布 的 性 能 分 析 器 ， 但 是 也 被 广泛 使 用 。 


下 面 详细 地 介绍 两 种 性 能 分 析 需 的 相关 知识 。 
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2.2 cProfile 











就 像 之 前 提 到 的 ，cProfile 自 Python 2.5 以 来 就 是 标准 版 Python 解释 器 默认 的 性 能 分 析 器 。 
其 他 版 本 的 Python ， 比 如 PyPy 里 面 是 没有 cProfile 的 。 它 是 一 种 确定 性 的 性 能 分 析 器 ， 提 供 了 
一 组 API 帮 助 开发 者 收集 Python 程序 运行 的 信息 ,更 确切 地 说 ,是 统计 每 个 函数 消耗 的 CPU 时 间 。 
同时 它 还 提供 了 其 他 细节 ， 比 如 函数 被 调用 的 次 数 。 


cProfile 只 测量 CPU 时 间 ， 并 不 关心 内 存 消耗 和 其 他 与 内 存 相 关 的 信息 统计 。 尽 管 如 此 ， 
它 是 代码 优化 过 程 中 一 个 很 不 错 的 起 点 , 因为 大 多 数 时 候 , 这 个 分 析 工具 都 会 快速 地 为 我 们 提供 
一 组 优化 方案 。 


cProfile 不 需要 安装 , 因为 它 是 语言 自 带 的 一 部 分 。 要 使 用 它 , 直接 导入 cProfile 包 即 可 。 







































































定性 的 性 能 分 析 器 其 实 就 是 基于 事件 的 性 能 分 析 器 的 另 一 种 说 法 (更 多 
ae 细节 请 参考 上 一 章 内 容 )。 也 就 是 说 ， 这 个 性 能 分 析 器 会 关注 代码 运行 过 程 中 的 
= 函数 调用 、 返 回 语句 等 事件 ,甚至 可 以 测量 程序 运行 期 间 发 生 的 每 一 个 事件 ( 与 
我 们 在 上 一 章 看 到 的 统计 式 性 能 分 析 器 不 同 )。 














下 面 是 从 Python 文档 里 提取 出 来 的 一 个 非常 简单 的 例子 : 


import cProfile 
import re 
cProfile.run('re.compile("foolbar")') 


上 面 代码 的 输出 结果 如 下 : 


197 function calls (192 primitive calls) in 0.002 seconds 





Ordered by: standard name 





ncalls tottime percall cumtime percall filename:lineno(function) 

1 0.000 0.000 0.001 0.001 <string>:1(<module>) 

1 0.000 0.000 0.001 0.001 re.py:212 (compile) 

1 0.000 0.000 0.001 0.001 re.py:268(_compile) 

alk 0.000 0.000 0.000 0.000 sre compile.py:172( compile charset) 
1 0.000 0.000 0.000 0.000 sre compile.py:201( optimize charset) 
4 0.000 0.000 0.000 0.000 sre compile.py:25( identityfunction) 

3/1 0.000 0.000 0.000 0.000 sre compile.py:33( compile) 


从 这 个 结果 中 可 以 收集 到 如 下 信息 。 


a 第 一 行 告诉 我 们 一 共有 197 个 函数 调用 被 监控 ， 其 中 192 个 是 原生 (primitive) 调用 ， 表 明 
这 些 调 用 不 涉及 递归 。 

口 ncalls 表 示 函 数 调用 的 次 数 。 如 果 在 这 一 列 中 有 两 个 数值 ， 就 表示 有 递归 调用 。 第 二 个 
数值 是 原生 调用 的 次 数 , 第 一 个 数值 是 总 调用 次 数 。 这 个 数值 可 以 帮助 识别 潜在 的 pug( 当 






































的 位 置 。 
O tottime 是 函数 内 部 消耗 的 总 时 间 (不 包括 调用 其 他 函数 的 时 间 ) 。 这 列 信息 可 以 帮助 
开发 者 找到 可 以 进行 优化 的 、 运 行 时 间 较 长 的 循环 。 

O percall 是 tottime 除 以 ncalls， 表 示 一 个 孔 数 每 次 调用 的 平均 消耗 时 间 。 

O cumtime 是 之 前 所 有 子 函 数 消耗 时 间 的 累计 和 (也 包含 递归 调用 时 间 ) 。 这 个 数值 可 以 
帮助 开发 者 从 整体 视角 识别 性 能 问题 ， 比 如 算法 选择 错误 。 

O 男 一 个 percall 是 用 cumtime 除 以 原生 调用 的 数量 ， 表 示 到 该 函数 调用 时 ， 每 个 原生 调 
用 的 平均 消耗 时 间 。 

O filename:lineno (function) 显 示 了 被 分 析 函 数 所 在 的 文件 名 、 行 号 、 哨 数 名 。 






























































2.2.1 工具 的 局 限 


不 存在 透明 的 性 能 分 析 器 。 也 就 是 说 ， 即 使 像 cProfile 这 样 消耗 极 小 的 性 能 分 析 器 ， 仍 然 
会 对 代码 实际 的 性 能 造成 影响 。 当 一 个 事件 被 触发 时 , 事件 实际 发 生 的 时 间 相 比 性 能 分 析 器 查询 
到 的 系统 内 部 时 钟 的 时 间 ， 还 是 会 有 一 些 延迟 。 另 外 ， 当 程序 计数 器 离开 性 能 分 析 器 代码 ， 回 到 
用 户 代 码 中 继续 执行 时 ， 程 序 也 会 出 现 滞后 。 


除了 这 些 之 外 ,作为 计算 机 内 部 的 任何 一 段 代码 ,， 内 部 时 钟 都 有 一 个 精度 范围 ,任何 小 于 这 
个 精度 的 测量 值 都 会 被 忽略 。 也 就 是 说 ， 如 果 进 行 性 能 分 析 的 代码 含有 许多 递归 调用 , 或 者 一 个 
PRM Hs ZED AVE AE PRI, 开发 者 就 应 该 对 这 个 函数 做 特殊 处 理 , 因为 测量 误差 不 断 地 累计 最 终 会 
变 得 非常 显著 。 
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2.2.2 ”支持 的 API 
cprofile 性 能 分 析 器 提供 了 一 些 方法 ， 帮 助 开 发 者 收集 程序 中 不 同类 型 上 下 文 的 性 能 统计 

















run(command, filename=None, sort=-1) 

上 面 这 个 经 典 的 方法 , 在 前 面 的 例子 中 使 用 过 ,用 来 收集 命令 执行 的 性 能 统计 信息 。 当 命令 
被 调用 时 ， 会 执行 下 面 这 个 函数 : 

exec (command, main... Saget, y main__.__dict__) 

如 果 没 有 设置 文件 名 filename， 它 就 会 创建 一 个 新 的 stats 类 的 实例 ( 后 面 会 详细 介绍 这 
个 类 )。 下 面 的 代码 和 之 前 的 例子 相同 ， 但 是 带 着 新 参数 : 




















import cProfile 
import re 
cProfile.run('re.compile("foolbar")', 'stats', 'cumtime') 
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如 果 你 运行 这 段 代码 ， 就 会 发 现 没 有 结果 输出 。 但 是 ， 如 果 你 检查 文件 夹 里 的 内 容 , 会 发 现 
一 个 新 文件 ， 叫 stats。 打 开 文 件 ， 你 会 发 现 里 面 的 内 容 无 法 理解 ， 因 为 文件 是 使 用 二 进 制 格式 保 
存 的 。 后 面 将 介绍 如 何 读 取 文件 信息 并 通过 它 来 创建 我 们 自己 的 报告 : 

runctx(command, globals, locals, filename=None) 

这 个 方法 和 之 前 的 很 相似 。 唯 一 不 同 的 是 ， 它 的 参数 列表 中 支持 两 个 字典 参数 : globals 
和 1locals。 当 它 被 调用 之 后 ， 会 执行 如 下 函数 : 


exec(command, globals, locals) 


它 会 和 run 一 样 收集 性 能 分 析 的 统计 信息 。 让 我 们 用 下 面 的 例子 来 看 看 run 和 runctx 之 间 的 
主要 差别 。 


首先 让 我 们 用 *un 函 数 ， 写 出 的 代码 如 下 : 


import cProfile 
def runRe(): 
import re 
cProfile.run('re.compile("foolbar")') 
runRe () 


当 我 们 运行 代码 时 ， 会 得 到 下 面 的 错误 信息 : 


Traceback (most recent call last): 
File "cprof-testl.py", line 7, in «module» 
runRe() 
File "/usr/lib/python2.7/cProfile.py", line 140, in runctx 
exec cmd in globals, locals 
File "«string»", line 1, in «module» 
NameError: name 're' is not defined 


re 模块 没有 被 run 方 法 发 现 ， 因 为 就 像 我 们 在 前 面 见 到 的 ，run 调 用 的 exec 函 数 的 参数 是 


main  . dict ^. 


现在 ， 再 让 我 们 用 runctx 方 法 : 


import cProfile 
def runRe(): 

import re 

cProfile.runctx('re.compile("foolbar")', None, locals() ) 
runRe () 


它 会 输出 下 面 的 有 效 结 


195 function calls (190 primitive calls) in 0.000 seconds 


























Ordered by: standard name 


ncalls tottime percall cumtime percall filename:lineno(function) 
1 0.000 0.000 0.000 0.000 <string>:1(<module>) 
1 0.000 0.000 0.000 0.000 re.py:192 (compile) 
1 0.000 0.000 0.000 0.000 re.py:230(_compile) 
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出 0.000 0.000 0.000 0.000 sre compile.py:228( compile charset) 
1 0.000 0.000 0.000 0.000 sre compile.py:256( optimize charset) 
1 0.000 0.000 0.000 0.000 sre compile.py:433( compile info) 
2 0.000 0.000 0.000 0.000 sre compile.py:546(isstring) 
T 0.000 0.000 0.000 0.000 sre compile.py:552(. code) 
a 0.000 0.000 0.000 0.000 sre_compile.py:567 (compile) 

a£ 0.000 0.000 0.000 0.000 sre compile.py:64( compile) 
5 0.000 0.000 0.000 0.000 sre parse.py:137( len ) 

12 0.000 0.000 0.000 0.000 sre parse.py:141( getitem ) 
7 0.000 0.000 0.000 0.000 sre parse.py:149 (append) 

371 0.000 0.000 0.000 0.000 sre parse.py:151(getwidth) 
d 0.000 0.000 0.000 0.000 sre parse.py:189( init ) 

10 0.000 0.000 0.000 0.000 sre parse.py:193( next) 
2 0.000 0.000 0.000 0.000 sre parse.py:206 (match) 
8 0.000 0.000 0.000 0.000 sre parse.py:212(get) 
1 0.000 0.000 0.000 0.000 sre parse.py:317( parse sub) 
2 0.000 0.000 0.000 0.000 sre parse.py:395( parse) 
1 0.000 0.000 0.000 0.000 sre_parse.py:67(__init__) 
1 0.000 0.000 0.000 0.000 sre_parse.py:706 (parse) 
3 0.000 0.000 0.000 0.000 sre_parse.py:92(__init__) 
1 0.000 0.000 0.000 0.000 {_sre.compile} 

15 0.000 0.000 0.000 0.000 {isinstance} 

39/38 0.000 0.000 0.000 0.000 {len} 

2 0.000 0.000 0.000 0.000 {max} 

48 0.000 0.000 0.000 0.000 {method 'append' of 'list' objects} 
1 0.000 0.000 0.000 0.000 {method 'disable' of ' lsprof.Profiler' 

objects} 
5 0.000 0.000 0.000 0.000 {method 'find' of 'bytearray' objects} 
1 0.000 0.000 0.000 0.000 {method 'items' of 'dict' objects} 
8 0.000 0.000 0.000 0.000 {min} 
6 0.000 0.000 0.000 0.000 {ord} 
在 性 能 分 析 过 程 中 ,Profile (timer=None, timeunit=0.0, subcalls=True, builtins= 
True) 方 法 可 以 返回 一 为 开发 者 提供 比 run 和 xunctx 更 多 的 控制 。 


timer 参 数 是 一 个 自 定 义 函数 ， 可 以 通过 与 和 








以 返回 当前 时 间 数 值 的 函数 。 如 果 开 发 者 需要 自 定义 函数 ， 


免 测 量 口径 造 


告 成 的 差异 B25 E—JINTWA )。 


其 认 圾 数 不 同 的 方式 测量 时 间 。 它 必须 是 一 个 可 


这 个 函数 的 消耗 应 该 尽 可 能 地 低 ， 避 


如 果 timer 的 返回 值 是 一 个 整数 ， 那 么 timeunit 参 数 就 表示 单位 时 间 换 算 成 秒 的 系数 。 例 














如 ， 如 果 返 回 值 单位 时 间 是 毫秒 ， 那 么 cimeunit 应 该 就 是 .001。 
让 我 们 再 看 看 Profile 返 回 类 的 其 他 方法 。 
O enable( pue 能 分 析 数 据 。 
O disable(): 表示 停止 收集 性 能 分 析 数 据 。 


D create_stats ( 


UO print stats(sort--1 





UO dump. stats(filename) 








能 分 析 的 内 





Zi 


容 写 进 


) : 表示 停止 收集 数据 ， 并 为 已 收集 的 数据 创建 stats 对 象 。 
) : 创建 一 个 stats 对 象 ， 打 印 分 析 结 
: 把 当前 性 


一 个 文 件 。 
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O run(cmd): 和 之 前 介绍 过 的 run 函 数 相 同 。 
O runctx(cmd, globals, locals): 和 之 前 介绍 过 的 *unctx 郴 数 相 同 。 
O runcall(func, *args, **kwargs): 收集 被 调用 函数 func 的 性 能 分 析 信息 。 


让 我 们 用 下 面 的 方式 演示 前 面 的 例子 : 





import cProfile 


def runRe(): 
import re 
re.compile("foolbar") 


prof - cProfile.Profile() 
prof.enable() 

runRe() 

prof.create stats() 
prof.print stats() 


在 上 面 的 性 能 分 析 代 码 中 行 数 变 多 了 , 但 这 样 做 其 实 可 以 减少 对 原 代码 的 干扰 。 通 过 这 种 方 
式 对 已 经 写 好 的 代码 或 者 已 经 通过 测试 的 代码 进行 性 能 分 析 时 , 可 以 直接 增加 或 删除 性 能 分 析 代 
码 ， 不 需要 调整 源 代码 。 
还 有 一 种 方式 对 源 代码 干扰 更 少 , 不 需要 增加 任何 代码 , 但 是 运行 脚本 时 需要 用 一 些 命令 行 
7 


$ python -m cProfile your script.py -o your script.profile 


需要 注意 的 是 ,这样 做 会 分 析 全 部 代码 的 性 能 ,因此 当 你 只 想 分 析 部 分 代码 的 性 能 时 ， 这 个 
方法 可 能 无 法 返回 想 要 的 结 


在 介绍 更 详细 、 更 有 趣 的 例子 之 前 ， 让 我 们 再 看 看 stats 类 能 为 我 们 做 什么 。 
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2.2.3 Stats # 


pstats 模 块 为 开发 者 提供 了 stats 类 , 可 以 读 取 和 操作 stats 文 件 ( 用 之 前 介绍 过 的 一 种 方法 ， 
把 性 能 分 析 内 容 保 存 为 二 进 制 文件 ) 的 内 容 。 


例如 ， 下 面 的 代码 可 以 加 载 stats 文 件 ， 打 印 里 面 经 过 排序 的 内 容 : 





import pstats 
p = pstats.Stats('stats' 
p.strip_dirs().sort_stats(-1).print_stats() 


注意 Stats 类 的 构造 器 可 以 接收 cProfile.Profile 类 型 的 参数 ， 可 以 不 
一 用 文件 名 称 作 为 数据 源 。 





WW 
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让 我 们 更 仔细 地 看 看 pstats .Stats 类 提供 的 方法 。 


O strip_dirs(): 删除 报告 中 所 有 函数 文件 名 的 路 径 信息 。 这 个 方法 会 改变 stats 实 例 内 
部 的 顺序 ， 任 何 运 行 该 方法 的 实例 都 将 随机 排列 项 目 〈 每 一 行 信息 ) 的 顺序 。 如 果 两 个 项 
目 被 认为 是 相同 的 ( 函数 名 相同 ,文件 名 相同 ， 行 数 相同 )， 那么 这 两 个 项 目 就 可 以 合并 。 

口 add (*filenames): 这 个 方法 将 文件 名 对 应 的 文件 的 信息 加 载 到 当前 的 stats 对 象 中 。 
需要 注意 的 是 ， 和 前 面 单独 一 个 文件 的 处 理 方式 相同 ， 引 用 同一 函数 的 stats 项 目 
(filename:lineno(function)， 即 文件 名 、 行 数 和 函数 名 ) 将 被 合并 。 

D dump_stats(filename): 就 像 cProfile.Profile 类 ， 这 个 方法 把 加 载 到 stats 类 的 

数据 保存 为 一 个 文件 。 

口 sort_stats(*keys): 这 个 方法 从 Python 2.3 就 开始 出 现 ， 它 是 通过 一 系列 条 件 依次 对 
所 有 项 目 进行 排序 ， 从 而 调整 stats 对 象 的 。 当 条 件 不 止 一 个 时 ， 只 有 经 过 前 一 个 条 件 排 
序 后 是 相同 的 项 目 ， 才 使 用 后 一 个 条 件 进 行 排序 。 例 如 ， 如 果 sort_stats ('name', 
'file') 条 件 被 使 用 ， 那 么 首先 会 把 所 有 项 目 按照 函数 名 排序 ， 然 后 对 名 称 相同 的 项 目 
再 按照 文件 名 排序 。 


这 个 方法 有 时 会 自作 聪明 , 遇 到 缩 略 词 有 歧义 时 就 会 自动 按照 拟定 的 规则 进行 理解 , 所 以 使 














































































































用 的 时 候 要 当心 。 目 前 支持 排序 的 条 件 如 下 表 所 示 。 
mE n a X 升序 /降序 排列 
calls 调用 总 次 数 降序 
cumulative 累计 时 间 降序 
cumt ime 累计 时 间 降序 
file 文件 名 升序 
filename 文件 名 升序 
—— 模块 名 升序 
ncalls 调用 总 次 数 降序 
pealls 原始 调用 数 降序 
line 行 号 升序 
name 国 数 名 升序 
nel 国 数 名 /文件 名 / 行 号 组 合 降序 
stdname 标准 名 称 升序 
time 国 数 内 部 运行 时 间 降序 
tottime 函数 内 部 运行 时 间 降序 




















nfl 与 stdname 
这 两 种 排序 方式 的 差异 在 于 ，stdname 按 照 字符 串 打印 的 方式 排序 ， 就 是 
一 把 数字 也 作为 字符 串 〈(4, 20, 30 排 序 后 就 是 20, 30, 4 )， 而 nfl1 是 把 行 号 字段 作为 
数字 进行 排序 。 
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最 后 ， 为 了 保持 程序 的 兼容 性 ， 一 些 数字 可 以 替换 表格 中 的 参数 。-1、0、1、2 分 别 表示 


stdname, calls, time, cumulativeos 


O reverse order () : 这 个 方法 会 道 反 原 来 参数 的 排序 方法 C 因此, 如 果 原 来 按 升序 排列 ， 
现在 就 会 变 成 降序 )。 
QO print stats(*restrictions): 这 个 方法 是 把 信息 打印 到 STpoUuT。 里 面 的 可 选 参数 
用 于 体现 打印 结果 的 形式 ， 可 以 是 整数 、 小 数 和 字符 串 。 解 释 如 下 。 


m 整数 : 限制 打印 的 行 数 。 
m0.081.0 (包含 ) 之 间 的 小 数 : 表示 按 总 行 数 的 百分比 打印 。 
m 字符 串 : 正则 表达 式 ， 用 于 匹配 staname。 







































































196 function calls (191 primitive calls) in 0.000 seconds 


Random listing order was used 
List reduced from 34 to 10 due to restriction «10» — — — — ———— = FT EN FRE BR EI 
List reduced from 10 to 6 due to restriction <'.*.py.*'> 表示 打 | 行 数 限制 


ncalls tottime percall cumtime percall filenam eno( function) 

0.000 0 0.000 .000 /home/f« do/miniconda/lib/python i 7(compile) 
0.000 ` 0.000 /home/ferr i pi 6 
0.000 0.000 /home/ferr / [s 
0.000 /home/fernan iconda/lib/python 
0.000 /home/fernando;/ nda/lib/python2. P. compile charset) 
0.000 /home/fernando/miniconda/lib/python2.7/sre parse.py:206(match) 


1 
/1 
1 
1 
2 


























上 图 显示 的 结果 是 从 以 下 代码 中 调用 print_stats 输 出 的 : 





import cProfile 
import pstats 


def runRe(): 
import re 
re.compile("foolbar") 
prof - cProfile.Profile() 
prof.enable() 
runRe() 
prof.create stats() 


p = pstats.Stats (prof 

# 打印 满足 正则 表达 式 的 前 10 行 结果 

p.print_stats(10, 1.0, '.*.py.*') 

如 果 函 数 里 有 和 多 个 参数 ,就 依次 满足 各 个 参数 。 就 像 我 们 在 上 面 那 段 代码 里 看 到 的 ,性 能 分 
析 器 的 结果 可 能 会 非常 长 。 但 是 , 如 果 排 序 合 理 , 就 可 以 用 参数 汇总 输出 结果 , 获取 需要 的 数据 。 


print_callers (*restrictions) 方 法 的 输入 参数 和 使 用 规则 与 前 面 的 函数 相同 , 但 是 输 
出 结果 有 一 点 儿 不 同 。 它 会 显示 程序 执行 过 程 中 调用 的 每 个 函数 的 调用 次 数 、 总 时 间 和 累计 时 间 ， 
以 及 文件 名 、 行 号 和 函数 名 的 组 合 。 


让 我 们 通过 下 面 的 例子 ,看 看 如 何 通 过 cProfile.Profile 和 和 stat s 获 取 程 序 调 用 函数 列表 : 
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import cProfile 
import pstats 


def runRe(): 
import re 


re.compile("foolbar") 


PLO. = 
prof.enable() 
runRe() 

prof.create stats() 


p = 
p.print_callers() 





pstats.Stats (prof) 


cProfile.Profile() 





注意 观察 这 里 是 如 何 把 profile.stats 和 cProfile.Profile 组 合 起 来 使 用 的 。 它 们 会 同 


时 运行 并 共同 显示 我 们 想 要 的 结果 。 现 在 ， 让 我 们 看 看 输出 结 





print_callees (*restrictions) 方 法 打印 一 列 调 月 
限制 参数 与 上 一 个 函数 相同 。 


结果 如 下 面 的 截图 所 示 : 


你 可 能 会 看 到 部 分 输出 


method 'append' of 'list' objects} 























0.000 
0.000 
0.000 
0.000 
0.000 
0.000 





Ium 


/home/fe rnando/miniconda/lib/python2 


Uf pai 


p 
p 
ib/py 2 
lib/pytho 


数 的 函数 。 其 数据 显示 格式 和 





/home/fernando/miniconda/lib/python2.7/sre_compile.py:64(_compile) 
/home/fernando/miniconda/lib/python2 
/home/fernando/miniconda/lib/python2 
/home/fernando/miniconda/lib/python2 
/home/fernando/miniconda/Li 


sre_compile.py:228( compile charset) 
compile.py:256(_ optimize charset) 
compile.py:433(_ compile info) 
compile.py:552(_ code) 

sre_parse.py:149(append) 





这 个 结果 表示 右边 的 函数 是 被 左 





2.2.4 ”性 能 分 析 示 例 
现在 我 们 已 





WAY BRI 


0.000 


数 调 用 的 。 





/home/fernando/miniconda/lib/python2.7/sre parse.py:317( parse sub) 














经 掌握 了 cpProfile 和 Stats 的 基本 用 法 了 ， 


下 面 来 探索 一 些 更 加 有 趣 且 真实 的 





2.2 cProfile 31 





例子 吧 。 
1. 回 到 辈 波 那 契 数列 
让 我 们 重新 回 到 斐 波 那 契 数列 ， 因 为 用 递归 方式 计算 的 斐 波 那 契 数列 有 很 大 的 改进 空间 。 
让 我 们 先 看 看 未 经 性 能 分 析 也 没有 优化 过 的 代码 : 


import profile 

















def fib(n): 
QE bees ds 
return n 
else: 


return fib(n-1) + fib(n-2) 


def fib seq(n): 
seq - [] 
XE 0e 
seq.extend(fib_seq(n-1) ) 
seq.append(fib(n) ) 
return seq 


profile.run('print fib_seq(20); print') 


代码 的 输出 结果 如 下 : 




















[0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233, 377, 610, 987, 1597, 2584, 4181, 6765] 


57356 function calls (66 primitive calls) in 0.142 seconds 


Ordered by: standard name 


ncalls tottime percall cumtime percall filename: lineno( function) 
21 0.001 0.000 0.001 0.000 :0(append) 
20 0.000 0.000 0.000 0.000 :0(extend) 
1 0.000 0.000 0.000 0.000 :0(setprofile) 
1 0.000 0.000 0.142 0.142 <string>:1(<module>) 
57291/21 0.141 0.000 0.141 0.007 B02088 02 08.py:3(fib) 
21/1 0.000 0.000 0.142 0.142 B02088 02 08.py:9(fib seq) 
H 0.000 0.000 0.142 0.142 profile:O(print fib seq(20); print) 
9 0.000 0.000 profile:0(profiler) 


























虽然 输出 的 结果 打印 没 问 题 ， 但 是 看 看 上 图 中 画 框 的 部 分 。 具 体 解释 如 下 : 


口 在 0.142 秒 内 ， 共 有 57 356 个 函数 调用 
口 一 共 只 有 66 个 原生 调用 (不 包括 递归 ) 
OQ 在 代码 的 第 三 行 ， 一 共有 57 270 (57 291-21) 次 递归 函数 调用 
我 们 已 经 知道 ， 过 多 的 函数 调用 将 增加 额外 的 时 间 消 耗 。 从 图 中 可 见 ( cumt ime 列 )， 大 部 


分 时 间 都 消耗 在 递归 函数 里 了 , 因此 我 们 有 理由 确信 如 果 让 递归 函数 加 速 ， 整个 程序 的 执行 时 间 
也 会 改善 。 
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现在 ， 
ff. ( memoization ) 技术 ,将 在 后 面 的 章节 


import profile 


class cached: 


def __init__ fn): 
self.fn 


self.cache 


(self, 
fn 


{} 


def | call . 
try; 
return self.cache[args] 
except KeyError: 
self.cache[args] self. 


return self.cache[args] 


(self, *args): 


@cached 
def fib(n): 
LE Ses 
return n 
else: 
return fib(n-1) + fib(n-2) 


def fib_seq(n): 

seq [] 

ito SOF 
seq.extend(fib_seq(n-1) ) 

seq.append(fib/(n) ) 


return seq 


profile.run('print fib_seq(20); 


现在 ， 让 我 们 运行 代码 ， 结 果 如 下 所 示 : 


, 13, 21, 34, 55, 89, 


145 “unction calls (87 primitive 


standard name 


Ordered by: 


ncalls 
21 
20 


tottime 
0.000 
0.000 
0.000 
0.000 
0.000 
0.000 
9 
9 
9 


cumtime 
0.000 
.000 

- 900 
.001 

- 000 
.991 
.000 
.991 

- 900 


percall 
0.000 

- 000 

- 000 

- 000 

. 000 

. 000 

. 000 

. 000 


perc 
0. 


.000 
.000 
.000 


程序 的 函数 调用 次 数 从 57 0002 FREI T 145, 


让 我 们 给 fip 函 数 加 一 个 简单 的 装饰 锅 ， 
里 介 


print’ 


- 000 
- 000 
.001 
.000 
.001 
.999 
.001 


Al xUFERET £ibPR 


fn(*args) 


) 


144, 233, 377, 610, 987, 


calls) in 0.001 seconds 


all 
000 :0(append) 

:0(extend) 
:0(setprofile) 
<string>: 1(<module>) 
B02088 02 09.py:15(fib) 


B02088 02 09.py:8( 
profile:0(print fib seq( 
profile:0(profiler 





AC 


运行 


1597, 


缓存 之 前 计算 的 值 [这 是 一 种 函数 返回 值 组 





数 的 值 就 不 需要 重复 计算 了 


2584, 4181, 6765] 


filename: Lineno( function) 


B02088 02 09.py:22(fib seq) 
call 


) 


20); print) 


时 间 也 从 0.142 秒 下 降 到 了 0.001 秒 。 





一 个 非常 给 力 的 优化 ! 但 是 ,我 们 的 原生 调 月 





让 我 们 再 进行 男 一 项 优化 。 虽然 我 们 的 例 





用 变 多 了 ， 而 递归 调 月 


月 明显 减少 了 





子 对 单个 函数 调 月 





HRS IRE H 





说 
P 














Te, 但 是 让 我 们 试 试 
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把 多 个 调用 合成 一 组 ， 用 stats 输 出 结果 。 这 样 做 可 能 还 会 看 到 一 些 有 趣 的 新 结果 。 为 此 ,我 们 
需要 使 用 stats 模 块 。 示 例 代码 如 下 : 


import cProfile 
import pstats 
from fibo4 import fib, fib_seq 


filenames = [] CENE 
profiler - cProfile.Profile() 


profiler.enable() 

for i in range(5): 

print fib seq(1000); print 
profiler.create stats() 

stats - pstats.Stats(profiler) 
stats.strip dirs().sort stats('cumulative').print stats() 
stats.print callers() 


我 们 已 经 做 了 简化 。 计 算 1000 个 斐 波 那 契 数列 可 能 计算 量 太 大 , 尤其 是 递归 实现 时 。 这 样 运 
行 代码 肯定 会 超过 cPython 的 递归 限制 。cPython 为 了 防止 栈 溢出 ， 设 置 了 递归 保护 措施 ( 理论 
上 ， 这 个 问题 可 以 通过 尾 递归 解决 ， 但 是 cpython 没 有 提供 )。 因 此 ， 我 们 找到 了 另 一 个 解决 方 
案 。 让 我 们 修复 这 个 问题 ， 运 行 下 面 的 代码 : 























import profile 


def fib(n): 
och Uy 
for i in range(0, n): 
a, b = b, a+b 
return a 


def fib_seq(n): 
seq = [] 
for i in range(0, n + 1): 
seq.append(fib(i)) 
return seq 


print fib seq(1000) 

上 面 的 代码 会 打印 出 存储 很 多 数值 的 超 长 列表 , 但 是 这 些 行 证 明 我 们 实现 了 目标 。 我 们 可 以 
计算 1000 个 斐 波 那 契 数列 。 现 在 ， 让 我 们 分 析 看 看 结果 如 何 。 

用 新 的 性 能 分 析 函 数 ， 不 过 需要 迭代 版 的 斐 波 那 契 实现 ， 代 码 如 下 : 

import cProfile 


import pstats 
from fibo_iter import fib, fib_seq 





filenames = [] 

profiler = cProfile.Profile() 
profiler.enable() 

for i in range(5): 


WW 


性 能 分 析 器 


y 





print fib seq(1000); 
profiler.create stats() 
Stats - pstats.Stats(profiler) 
stats.strip dirs().sort stats( 
stats.print callers() 


这 段 代 码 显 示 在 命令 行 


print 


'cumulative') 


的 结果 如 下 : 


15028 function calls in 0.187 seconds 


Ordered by: cumulative time 


.print, stats() 


ncalls 
5 

5005 
5011 
5005 

1 

1 


tottime 
0. 


002 


0.173 


Ordered by: 


Function 


.011 
.001 
.000 
.000 


percall 
.000 
.000 
.000 
.000 
.000 
.000 


cumtime 
.187 
.184 
.011 
.001 
.000 
. 000 


cumulative time 


percall 


0. 
0.000 
0.000 
ð. 
9 
9 


037 


000 


.000 
.000 


filename:lineno(function) 

fibo iter.py:10(fib_seq) 

fibo iter.py:3(fib) 

{range} 

{method ‘append’ of 'list' objects} 
cProfile.py:90(create stats) 


{method 'disable' of ' lsprof.Profiler' objects} 


was called by... 


H 


HE RUE RIEME 和 我 们 之 前 做 的 一 样 。 你 已 





就 可 以 大 幅度 降低 调用 次 数 ， 


ncalls 

fibo iter.py:10(fib seq) 
fibo iter.py:3(fib) 5005 
5005 
5 
5005 


'list' objects} 


objects} - 1 


{method ‘disable’ of ' lsprof.Profiler' 


新 代码 用 0.187 秒 计算 了 1000 个 斐 波 那 契 数列 $ 次 。 
经 看 到 ， 





tottime 


0.173 
0.011 
0.000 
0.001 


0.000 


Ei 





fibPAZiUSH f 50051x, n4 






































只 需要 
NT 


一 点 点 努力 ， 我 们 就 可 以 通过 


import profile 


class cached: 


def | init (self, fn): 
self.fn - fn 
self.cache - 


0 


def | call . 


try: 


(self, *args): 
return self.cache[args] 
except KeyError: 
self.cache[args] = self.fn( 
return self.cache[args] 


xargs) 


@cached 
def fib(n): 
B. deeem X 


for i in range(0, n): 


这 意味 着 很 少 的 运行 时 间 。 
缓存 改善 之 前 被 调用 了 5005 次 的 fib 孙 


Pe 
虽然 这 个 


cumtime 


0.184 
0.011 
0.000 
0.001 


0.000 





fibo iter.py:10(fib_seq) 
fibo iter.py:3(fib) 

fibo iter.py:10(fib seq) 
fibo iter.py:10(fib_seq) 


cProfile.py:90(create stats) 


吉 果 并 不 差 ， 但 是 我 们 知道 可 


以 























缓存 结果 ， 





数 的 调用 时 间 : 
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a, b= b, a+b 
return a 


def fib_seq(n): 
seq = [] 
for i in range(0, n +1): 
seq.append(fib(i)) 
return seq 





print fib seq(1000) 


你 应 该 会 得 到 如 下 的 运行 结果 : 




















10023 function calls in 0.006 seconds 


Ordered by: cumulative time 


ncalls tottime percall cumtime percall filename: lineno( function) 
0.004 .001 .006 .001 fibo iter.py:25(fib seq) 
0.002 0.000 0.002 0.000 fibo iter.py:8( call ) 
0.000 .000 .000 .000 (method 'append' of 'list' objects) 
0.000 .000 .000 .000 {range} 
0 
9 


5005 
5005 


.000 .000 .000 .000 cProfile.py:90(create stats) 
.000 .000 .000 .000 (method 'disable' of ' lsprof.Profiler' objects) 


Ordered by: cumulative time 


unction was called by... 
ncalls tottime cumtime 


< 

< 5005 0.002 0.002 fibo iter.py:25(fib seq) 
objects} < 5005 0.000 0.000 fibo iter.py:25(fib seq) 

<- 5 0.000 0.000 fibo iter.py:25(fib seq) 
Profile.py:90(create stats) «- 
< 


method ‘disable’ of ' lsprof.Profiler' objects} 1 0.000 0.000 cProfile.py:90(create stats 








只 要 简单 地 缓存 fib 函 数 的 结果 ， 就 可 以 把 运行 时 间 从 0.187 秒 缩短 到 0.006 秒 。 这 是 非常 给 
力 的 优化 ! 干 得 漂亮 ! 

2. 推 文 数据 统计 

让 我 们 再 看 一 个 内 容 上 更 复杂 一 些 的 例子 ， 毕 苋 辈 波 那 契 数列 不 是 现实 中 人 人 都 会 用 到 的 。 
还 是 让 我 们 再 做 一 些 有 趣 的 事情 吧 。 现 在 Twitter 已 经 允许 你 以 CSV 格 式 下 载 自己 的 推 文 列表 。 我 
们 就 用 自己 的 数据 做 一 些 统计 。 
通过 获取 的 数据 ， 我 们 可 以 统计 下 面 的 信息 : 


口 实际 回复 的 信息 占 比 
口 网 站 (https://twitter.com ) 发 布 的 推 文 占 比 
口 手机 发 布 的 推 文 占 比 


我 们 的 程序 输出 的 结果 应 该 如 下 图 所 示 。 



























































My twitter stats 
35% of tweets are replies 


86% of tweets were made from the website 





13% of tweets were made from my phone 


为 了 简便 , 我 们 重点 关注 CVS 文 件 解析 ， 并 做 一 些 基本 计算 。 我 们 不 用 任何 第 三 方 模块 ， 这 








eS 


Ji 


羊 ， 我 们 就 可 以 完全 
前 面 出 现 过 的 其 他 不 太 好 的 做 法 ， 




















比如 inc_stat 函 数 ， 或 者 在 处 理 文件 之 前 提 








侄 制 代码 和 分 析 的 内 容 了 。 也 就 是 说 ， 像 Python 的 csv 模 块 我 们 也 不 用 。 

















载 入 内存， 都 会 提醒 你 ， 这 只 是 一 个 显示 基本 改进 方法 的 示例 。 





下 面 是 初始 代码 : 


def build_twit_stats(): 


STATS_FILE = './files/tweets.csv' 
STATE = { 

'replies': O0, 

'from web': O0, 

'from phone': 0, 

'lines parts': [], 


'total tweets': 0 
} 
read_data (STATE, 
get_stats (STATE) 
print_results (STATE) 


STATS_FILE) 





def get_percentage(n, total): 
return (n * 100) / total 
def read_data(state, source): 
f = open(source, 'r') 
lines = f.read().strip().split("\"\n\"") 
for line in lines: 
state['lines_parts'].append(line.strip().split(',')) 
state['total_tweets'] = len(lines) 
def inc_stat(state, st): 
state[st] += 1 
def get_stats(state): 
for i in state['lines_parts']: 
LEGII] See yes 
inc_stat(state, 'replies') 
if(i[4].find('Twitter Web Client') > -1): 
inc stat(state, 'from web') 
else: 
inc stat(state, 'from phone') 





def tate): 
My twitter stats 
print "%s%% of tweets are replies" 


['total tweets'])) 


print results(s 





9. 


$ (get percentage(state['replies'], 


HE 


OE 


个 文件 都 


state 
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print "%s%% of tweets were made from the website" % (get_percentage(state 
['from_web'], state['total tweets'])) 
print "%s%% of tweets were made from my phone" $ (get percentage(state['from. 
phone'], state['total tweets'])) 
其 实 ， 这 段 代码 并 不 是 太 复杂 ， 就 是 读 取 文 件 内 容 , TRTTAYNU, 再 把 每 一 行 分 配 到 不 同 的 类 
型 中 ,最 后 统计 各 个 类 型 推 文 的 数量 。 初 看 这 段 代码 ,可 能 会 认为 没什么 可 优化 的 ,但 我 们 会 发 
现 其 实 还 是 有 优化 空间 的 。 B 
另 一 个 需要 注意 的 地 方 是 ， 我 们 要 处 理 的 数据 有 150MB。 








下 面 的 代码 会 导入 代码 并 使 用 它 生成 性 








import cProfi 
import pstats 
from B02088 02 14 import build twi 


lie 





cProfile.Profile() 
filer.enable() 


profiler 


pro 


build twit stats() 


profiler.create stats() 
stats pstats.Stats(profiler) 
stats.strip dirs().sort stats(' 


行 代码 获得 的 结果 如 下 ; 





---- My twitter stats 

of tweets are replies 

of tweets were made from the website 
of tweets were made from my phone 


cumulative') 


能 分 析 报 告 : 


t_stats 


-print_stats ( 


3019962 function calls in 2.059 seconds 


Ordered by: cumulative time 


nealle 


1 


cumtime 
.059 
.582 
031 
.450 
.226 
-099 
.995 
.039 
.024 
EI 
.000 
.000 
.000 
B: 
000 


tottime 
0.026 
0.262 
1.031 
0.257 
0.226 
0.099 
0.095 
0.039 
0.024 
9 
9 
9 
9 
9 
9 


percall 

0.026 
262 
000 
257 
000 
000 
000 
039 
000 
000 
000 
000 
000 
000 
000 


N 


2: 


564851 

1 
564851 
760548 
564850 

1 
564850 

1 -000 
-000 
.000 
.000 
B: 
-000 


OOOOoOOoo0o0o0o000000 
OOOOoOocooooocon-zuwo 


OOOOoOOoo0oo0oo0o0o0o0ooowu 








上 面 的 截屏 中 有 
(1) 程序 的 总 执 


点 需要 注意 : 


aN 


TARY Te] 





percall 





filename: lLineno( function) 

BO2088 02 14.py:6(build twit stats) 
B02088 02 14.py:22(read data) 
(method 'split' of 'str' objects) 
B02088 02 14.py:33(get stats) 
(method 'strip' of 'str' objects) 
B02088 02 14.py:30(inc stat) 
(method 'find' of 'str' objects) 
(method 'read' of 'file' objects) 
(method 'append' of 'list' objects) 
B02088 02 14.py:42(print results) 
(open) 

cProfile.py:90(create stats) 

{len} 

B02088 02 14.py:19(get percentage) 
{method ‘disable’ of ' lsprof.Profiler' 


059 
582 
000 
450 
000 
000 
000 
039 
000 
000 
000 
000 
000 
000 
000 


objects) 


WW 
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(2) 不 同 函 数 累 计 的 调用 次 数 
(3) 每 个 函数 的 总 调用 次 数 


我 们 的 目标 是 减少 总 执行 时 间 。 因 此 , 我 们 需要 考虑 不 同 函 数 调用 的 累计 次 数 和 每 个 函数 的 
总 调用 次 数 。 关 于 这 两 点 ， 我 们 可 以 得 出 下 面 的 结论 。 


口 puilg_twit_stats 消 耗 了 最 多 的 时 间 。 然 而 ， 你 会 看 到 在 前 面 的 代码 中 ， 它 只 是 调用 
了 其 他 所 有 函数 ， 这 是 显而易见 的 。 我 们 可 以 把 注意 力 集中 在 耗 时 第 二 多 的 read_qdata 
函数 上 。 这 倒是 挺 有 意思 ,我 们 的 性 能 瓶颈 不 是 计算 统计 数据 ， 而 是 读 取 文件 。 

口 在 代码 的 第 三 行 ， 我 们 可 以 清楚 地 看 到 reagd_data 了 函数 的 瓶 贷 。 我 们 使 用 了 太 多 split 

命令 ,它们 的 时 间 累 加 了 。 

a 还 可 以 看 到 第 四 耗 时 的 函数 get_stats。 


那么 现在 让 我 们 带 着 这 些 问 题 , 看 看 有 没有 更 好 的 解决 方案 。 最 大 的 性 能 瓶颈 就 是 加 载 数 据 。 
我 们 首先 把 数据 加 载 到 内 存 中 ,然后 重复 地 遍历 文件 计算 统计 数据 ,我 们 可 以 改 成 逐 行 读 取 文件 ， 
然后 每 读 一 行 统计 一 次 。 让 我 们 看 看 代码 应 该 怎么 写 。 


新 的 reaaq_qata 国 数 应 该 像 这 样 ，; 






















































































def read_data(state, source): 
f = open(source) 


buffer parts - [] 
for line in f: 
# 由 于 多 行 推 文 在 文件 中 也 被 保存 为 若干 行 ， 
# 因此 需要 考虑 把 它们 合并 到 一 起 。 
parts = line.split('","') 
buffer_parts += parts 
if len(parts) == 10: 
state['lines_parts'].append(buffer_parts) 
get_line_stats(state, buffer_parts) 
buffer_parts = [] 
state['total_tweets'] = len(state['lines_parts']) 


Fe 1505 2 H6 fl EETHEN, 也 就 是 CSV 文 件 中 的 多 行 记录 。 我 们 把 get_stats 
PRU, f get line stats, 这样 做 可 以 简化 逻辑 ， 因 为 它 只 计算 当前 行 的 值 。 


def get_line_stats(state, line_parts): 
if line parts[1] !- '' 
state['replies'] += 1 
if 'Twitter Web Client' in line_parts[4]: 
state['from_web'] += 1 
else: 
state['from_phone'] += 1 


Bom Pub, — ee Rinc_stat KAAI, FPR, PA Da ME; 
二 是 利用 in 操 作 符 替换 find 方 法 。 
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让 我 们 再 运行 一 次 代码 ， 看 看 变化 : 


-------- “My twitter stats 
34% of tweets are replies 
% of tweets were made from the 


website 


% of tweets were made from my phone 
2312158 function calls in 1.590 seconds 


Ordered by: cumulative time 


ncalls tottime percall cumtime percall 


1 9. 9. 1: 
1 
604612 
551462 
604613 
551462 
1 


[oM cM oM oM oo ool oo! 
[oM oM oM oM oNoNoMog oo! 


1 
9 
9 
9 
ð. 
[7 
9 
9 
9 
9 


l: 


@eoooocococoeoocr 


filename: lineno( function) 

BO2088 02 16.py:3(build twit stats) 
B02088 02 16.py:19(read data) 
{method 'split' of 'str' objects} 
B02088 02 16.py:38(get line stats) 
{len} 

{method 'append' of 'list' objects} 
B02088 02 16.py:46(print results) 
B02088 02 16.py:16(get percentage) 
(open) 

cProfile.py:90(create stats) 
(method 'disable' of ' lsprof.Profiler' objects) 








运行 时 间 从 2 秒 降 到 了 1.6 秒 ,算是 一 个 不 错 的 改进 。read_qata 函 数 仍然 是 耗 时 最 多 的 函数 ， 
但 是 现在 的 原因 是 get_1ine_stats 消 数 。 我 们 还 可 以 进一步 优化 它 , 虽然 这 个 函数 并 没有 做 很 























多 操作 , 但 是 在 循环 体 中 不 断 地 调 月 


看 效果 有 没有 改善 。 
新 的 代码 如 下 : 


def read_data(state, source 
f = open(source) 


buffer parts - [] 
for line in f: 





): 


日 它 会 消耗 一 些 查询 时 间 。 我 们 可 以 对 这 个 函数 进行 内 联 , 看 








# 由 于 多 行 推 文 在 文件 中 也 被 保存 为 若干 行 ， 
# 因此 需要 考虑 把 它们 合并 到 一 起 。 


parts = line.split('", 


buffer_parts += parts 

if len(parts) == 10: 
state['lines_parts' 
if buffer_parts[1] 


wry 


state['replies'] += 1 


if 'Twitter Web Client' 


state['from_web'] 
else: 
state['from_phone 
buffer_parts = [] 
state['total_tweets'] = 


现在 ， 结 果 有 了 新 变化 ， 如 下 


+= 1 


'] += 1 


] .append (buffer. parts) 
! 


in buffer parts[4]: 


len(state['lines. parts']) 





图 所 示 。 
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-------- My twitter stats 
34% of tweets are replies 
86% of tweets were made from the website 
13% of tweets were made from my phone 
1760696 function calls in 1.423 seconds 


Ordered by: cumulative time 


ncalls tottime percall cumtime. percall filename: Lineno( function) 
1 0.000 0.000 1.423 1.423 B02088 02 16.py:3(build twit stats) 


1 
604612 
604613 
551462 

1 


.423 
.746 
000 .028 
000 .025 


.624 1 

9 

9 

9 
000 0.000 

9 

9 

9 

9 


.746 
.028 
.025 
.000 
000 
- 600 
- 000 
- 000 


624 
000 
000 {len} 


000 - 900 
000 - 000 
000 - 900 
000 .000 


000 {open} 


cOoOcooooooco 
[200 Eo Eo EE E E 
OOooooooownu 











423 B02088 02 16.py:19(read data) 
000 (method 'split' of 'str' objects) 


000 (method 'append' of 'list' objects) 
000 B02088 02 16.py:40(print results) 
000 cProfile.py:90(create stats 


000 B02088 02 16.py:16(get_percentage) 
000 {method ‘disable’ of ' 


lsprof.Profiler' objects} 


相 比 第 一 张 图 和 前 面 那 一 张 图 , 这 是 很 明显 的 进步 。 我 们 把 程序 运行 时 间 从 2 秒 降 到 了 1.4 秒 。 
函数 调用 次 数 也 明显 降低 了 ( 从 大 约 300 万 次 降 到 了 170 万 次 )， 相 应 地 也 减少 了 函数 查询 和 调用 


的 时 间 。 








作为 额外 的 改善 ， 我 们 还 可 以 简化 代码 以 增加 可 读 性 。 最 终 的 代码 如 下 : 


def build_twit_stats(): 


STATS_FILE = './files/tweets.csv' 
STATE = { 

'replies': 0, 

'from web': O0, 

'from phone': 0, 

'lines parts': [], 


'total tweets': 0 
} 
read_data(STATE, STATS_FILE) 
print_results (STATE) 


def get_percentage(n, total): 
return (n * 100) / total 


def read_data(state, source): 
f = open(source) 


buffer_parts = [] 
for line in f: 
# 由 于 多 行 推 文 在 文件 中 也 被 保存 为 若干 行 ， 
# 因此 需要 考虑 把 它们 合并 到 一 起 。 
parts = line.split('","') 
buffer_parts += parts 
if len(parts) == 10: 
state['lines_parts'].append(buffer_parts) 
if buffer parts[1] ! Pn 
state['replies'] += 1 


if 'Twitter Web Client' in buffer parts[4]: 


state['from web'] += 1 
else: 
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state['from_phone'] += 1 
buffer_parts = [] 
state['total_tweets'] = len(state['lines_parts']) 


def print_results(state): 

print "-------- My twitter stats ------------- , 

print "%s%% of tweets are replies" $ (get percentage(state['replies'], 
state['total tweets'])) 

print "% tweets were made from the website" $ (get percentage(state 
['from web'], state['total tweets'])) 

print "%s%% of tweets were made from my phone" $ (get percentage(state 
['from phone'], state['total tweets'])) 


下 面 我 们 对 cProfile 做 个 总 结 。 通 过 它 我 们 可 以 对 代码 进行 性 能 分 析 ， 获 取 每 个 函数 的 调 
用 次 数 和 总 调用 次 数 。 它 帮助 我 们 通过 系统 全 局 视角 改进 代码 。 下 面 将 介绍 另 一 种 性 能 分 析 器 ， 
它 可 以 为 我 们 提供 每 一 行 代码 的 性 能 细节 ， 这 是 cProfile 无 法 提供 的 。 


a | 
ex 
E 
Oo 
Eh 
































2.3 line_profiler 





ix 4- TERE APT de Al cProfile HA], ERY ELT Dair 338 2) Pr PRE E, Ne RR 
cProfile 那 样 做 确定 性 性 能 分 析 。 


可 以 用 pip( https://pypi.python.org/pypi ) 命 令 行 工 具 , 通过 下 面 的 代码 安装 1ine_profiler: 





$ pip install line profiler 


: 如 果 安 装 过 程 中 遇 到 问题 ， 比 如 文件 缺失 ， 请 确保 你 已 经 安装 了 相关 依赖 。 
在 Ubuntu 中 ， 可 以 通过 下 面 的 命令 安装 需要 的 依赖 : 


$ sudo apt-get install python-dev libxm12-dev libxslt-dev 





line_profiler 试 图 弥补 cProfile 和 类 似 性 能 分 析 器 的 不 足 。 其 他 性 能 分 析 器 主要 关注 也 
数 调用 消耗 的 CPU 时 间 。 大 多 数 情况 下 , 这 足以 发 现 问题 , 消除 瓶颈 ( 就 像 我 们 之 前 看 到 的 那样 )。 
但 是 ， 有 时 候 ， 瓶 颈 问 题 发 生 在 函数 的 某 一 行 中 ， 这 时 就 需要 1ine_profiler 解 决 了 。 

1ine_profiler 的 作者 建议 使 用 kernprof 工 具 ， 后 面 我 们 会 介绍 相关 示例 。 kernprof 会 
创建 一 个 性 能 分 析 器 实例 ， 并 把 名 字 添 加 到 builtins_ 命名 空间 的 profile 中 。1line_ 
profiler 性 能 分 析 咒 被 设计 成 一 个 装饰 右 ， 你 可 以 装饰 任何 一 个 函数 ， 它 会 统计 每 一 行 消耗 的 
时 间 。 


用 下 面 的 代码 执行 这 个 性 能 分 析 器 : 





























$ kernprof -1 script to profile.py 





Ñ 
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被 装饰 的 函数 将 被 分 析 : 


@profile 
def fib(n): 
Ao Bos OD, L 
for i in range(0, n): 
a, b = b, a+b 
return a 


























kernprof 上 默认 情况 下 会 把 分 析 结 果 写 入 script_to_profile.py.lprof 文 件 ， 不 过 你 可 以 月 




















让 结果 立即 显示 在 命令 行 里 : 
$ kernprof -1 -v script to profile.py 


下 面 是 一 个 简单 的 示例 结果 ， 可 帮助 你 理解 看 到 的 内 容 。 














Wrote profile results to kernprof-test.py.Lprof 
Timer unit: le-06 s 


Total time: 7.3e-05 s 
File: kernprof-test.py 
Function: test at line 2 


Time Per Hit % Time Line Contents 


@profile 
def test(): 


for i in range(0, 10): 
print i**2 
print "End of the function" 








ARAMA RT, SUN. FAO, AAS UP. 


O Line #: 表示 文件 中 的 行 号 。 
D Hits: 性 能 分 析 时 一 行 代码 的 执行 次 数 。 





















































H -v/B 








Pan! 


O Time: 一 行 代码 执行 的 总 时 间 , 由 计时 需 的 单位 决定 。 在 分 析 结果 的 最 开始 有 一 行 Timer 


unit ,该 数值 就 是 转换 成 秒 的 计时 单位 ( 要 计算 总 时 间 ,需要 用 Time 数 值 乘 以 计时 单位 )。 








不 同系 统 的 计时 单位 可 能 不 同 。 








Q $ Time: 执行 一 行 代 码 的 时 间 消 耗 占 程序 总 消耗 时 间 的 比例 。 





O Per hit: 执行 一 行 代码 的 平均 消耗 时 间 ， 依 然 由 系统 的 计时 单位 决定 。 


如 果 你 正在 使 用 1ine_profiler 进 行 性 能 分 析 , 有 两 种 方式 可 以 获得 函数 的 性 能 分 析 数 据 : 











用 构造 器 或 者 用 aqdq_function 方 法 。 








line_profiler 和 cpProfile.Profile 一 样 ， 也 提供 了 run、 runctx, runcall, enable 




















和 disable 方法 。 但 是 最 后 两 个 函数 在 能 入 模块 统计 性 能 时 并 不 安全 , 使 用 时 要 当心 。 进 行 性 能 
分 析 之 后 ,可 以 用 dump_stats (filename) 方 法 把 stats 加 载 到 文件 中 。 也 可 以 用 print_stats 
([stream] ) 方 法 打印 结果 。 它 会 把 结果 打印 到 sys .stdqout 里 ,或 者 任何 其 他 设置 成 参数 的 数 















































据 流 中 。 
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下 面 的 例子 和 前 面 的 函数 一 样 。 这 次 函数 通过 1ine_profiler 的 API 进 行 性 能 分 析 ; 


import line_profiler 
import sys 


def test(): 
for i in range(0, 10): 
print 3**2 
print "End of the function" 





prof = line profiler.LineProfiler(test) # 把 函数 传递 到 性 能 分 析 器 中 
prof.enable() # 开始 性 能 分 析 

test () 

prof.disable() # 停止 性 能 分 析 


prof.print stats(sys.stdout) # 打印 性 能 分 析 结 果 


2.3.1 kernprof 


kernprof 工 具 和 1ine_profiler 是 集成 在 一 起 的 , 允许 我 们 从 源 代码 中 抽象 大 多 数 性 能 分 
析 代 码 。 这 就 表示 我 们 可 以 用 它 分 析 应 用 的 性 能 ， 和 前 面 做 的 一 样 。kernprof 将 为 我 们 做 以 下 


EI. 





iini 











它 将 和 cProfile、1lsprof 其 至 profile 模 块 一 起 工作 ， 具体 要 看 哪 一 个 性 能 分 析 器 可 
用 。 

a 它 会 自动 寻找 脚本 文件 ， 如 果 文 件 不 在 当前 文件 夹 ， 它 会 检测 PATH 路 径 。 

a 将 实例 化 分 析 器 , 并 把 名 字 添 加 到 _ builtins_ 命名 空间 的 profile 中 。 这 样 我 们 就 可 
以 在 代码 中 使 用 性 能 分 析 器 了 。 在 line_profiler 示 例 中 ， 我 们 甚至 可 以 直接 把 它 当 作 
装饰 器 用 ， 不 需要 导入 。 

O stats 性 能 分 析 文 件 可 以 用 pstats .Stats 类 进行 查看 ， 或 者 使 用 下 面 的 代码 查看 。 


m 

















$ python -m pstats stats_file.py.prof 
或 者 在 lprof 文 件 中 查看 : 


$ python -m line profiler stats file.py.lprof 


2.3.2 kernprof 注意 事项 


在 读 取 kernprof 的 输出 结果 时 ， 有 两 件 事情 需要 注意 。 有 时 ， 输 出 结果 可 能 会 比较 混乱 ， 
或 者 数字 可 能 没 增加 到 总 时 间 。 这 些 最 常见 问题 的 解决 方案 如 下 。 





AE 


四 


Ñ 
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iz 


y 





O 在 性 能 分 析 函 数 调用 另 一 个 函数 时 ， 没 
一 个 函数 的 性 能 分 析 时 ， 可 能 会 


Hew 


j= 


有 把 每 一 行 消耗 的 时 间 增 加 到 总 时 间 上 : 当 完 成 


发 生 之 前 的 函数 分 析 结 果 没 有 加 到 总 时 间 上 的 情况 。 这 


是 因为 kernprof 只 记录 函数 内 部 消耗 的 时 间 , 以 免 对 程序 造成 额外 的 负担 , 如 下 图 所 示 。 


Timer unit: le-06 s 
Total time 
File: 
Function: 


0.010539 s 
kernpror-test3.py 
printI at line 3 


Time Per Hit 


Total time: 0.019611 s 
File: kernprof-test3.py 
Function: test at line 10 


之 前 的 例子 中 显示 的 情况 是 : print lee 





Line Contents 


@profile 
def printI(i) 
counter = 0 
for a in range(0, 2000): 
counter +=1 
print i ** 2 


p 
def test(): 
for i in range(0, 
printI(i) 
print "End of the function" 


能 分 析 器 里 消耗 了 0.010539 秒 。 但 是 ， 在 


10): 











test 函 数 内 ， 时 间 消 耗 量 是 19 567 个 单位 时 间 ， 共 计 0.019567 秒 。 


pad 
z A 


O 分 析 报 告 中 ,列表 











Timer unit: 1le-06 s 
Total time: 6.7e-05 s 
ile: kernprof-test3.py 
Function: printExpression at line 2 
Hits 


Time Per Hit 


102 
2 


Total time: 0.00011 s 

File: kernprof-test3.py 

Function: test at line 7 
e# 


Hits Per Hit 








你 会 看 到 表达 式 实际 的 Hit 数 是 102, print! 
100 次 Hit 是 xrange 函 数 消耗 的 。 





(list comprehension) 表达 式 的 Hit 比 它们 实际 消耗 的 要 多 很 多 : 
基本 上 是 因为 对 表达 式 进 行 性 能 分 析 时 ， 分 析 报 告 





和 对 每 次 迭代 增加 了 一 个 Hit。 如 下 图 





ne Contents 


def printExpression(): 
myList = [x for x in xrange(0, 50)] 
print myList 


e Contents 


@profile 

def test(): 
printExpression() 
printExpression() 


print "End of the function" 


次 被 调 月 





有 时 需要 2 次 Hit。 其 他 





Expression ZW 
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2.3.8 性 能 分 析 示 例 
我 们 已 经 学 习 了 1ine_profiler 和 kernprof 的 基础 知识 ， 下 面 让 我 们 看 一 些 有 趣 的 例子 。 





1. 回 到 辈 波 那 契 数列 

让 我 们 继续 对 斐 波 那 契 数 列 进行 性 能 分 析 。 通 过 对 两 种 性 能 分 析 需 结果 进行 比较 , 我 们 可 以 
更 好 地 了 解 两 种 工作 方式 。 

让 我 们 先 看 看 新 的 性 能 分 析 需 的 输出 结 


[0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233, 377, 610, 987, 1597, 2584, 4181, 6765] 
Wrote profile results to basic-fibo.py.lprof 
Timer unit: le-06 s 



































Total time: 0.039405 s 
File: basic-fibo.py 
Function: fib at line 2 


Time Per Hit % Ti Line Contents 


@profile 
def fib(n): 
if n <= 1: 
return n 


return fib(n-1) + fib(n-2) 


Total time: 0.111788 s 
File: basic-fibo.py 
Function: fib_seq at line 9 


def fib seq(n): 
7 : ; seq = [ ] 
6 . d if n» 9: 
29 $ 4 seq.extend(fib seq(n-1)) 
111690 « s seq.append(fib(n) ) 
§ P à return seq 























We PMA žE, d 1I WA SFA a, FEL ibe, ANRE 
了 太 多 时 间 (也 不 应 该 消耗 很 多 时 间 )。 在 fip_seq 里 面 ， 只 有 一 行 消耗 了 大 量 时 间 ， 但 那 是 因 
为 递归 是 在 fib 里 面 运行 的 。 

所 以 , 我 们 的 问题 (其实 我 们 也 已 经 知道 ) 就 是 递归 ,以 及 执行 fipb 函 数 的 次 数 (共有 57 291 
次 )。 每 次 调用 函数 时 ， 解释 器 都 要 按 名 称 查询 一 次 ， 然 后 再 执行 函数 。 每 次 调用 fipb 函 数 时 ， 
都 需要 调用 两 次 。 


首先 要 解决 的 问题 就 是 降低 递归 的 次 数 。 












































我 们 可 以 像 之 前 那样 重 写 一 个 快速 的 递归 函数 ， 或 者 用 装饰 器 缓存 结果 。 运 行 结果 如 下 图 


所 示 。 








5, 8, 13, 21, 34, 55, 89, 


Timer unit: le-06 s 


Total time: 4.7e-05 s 
File: basic-fibo.py 
Function: fib at line 15 


Per Hit 


Total time: 0.000225 s 
File: basic-fibo.py 
Function: fib seq at line 23 





" 144, 233, 377, 610, 987, 1597, 2584, 4181, 
(rote profile results to basic-fibo.py.lprof 


Line Contents 


@cached 
@profile 
def fib(n): 
if n <= 1: 
return n 
else: 
return fib(n-1) + fib(n-2) 


Line Contents 


@profile 
def fib seq(n): 


seq.extend(fib seq(n-1)) 
seq.append(fib(n)) 
return seq 


Hit 数 量 从 57 29 ERES] 21, 3X X —ÜCUEBT TR RAFTER TF PE MRT SR 





2. 倒 排 索引 











我 们 不 重复 使 用 之 前 的 示例 来 演示 新 的 性 能 分 析 器 ， 而 是 来 看 另 一 个 示例 : 创建 倒 排 索引 











( http://en.wikipedia.org/wiki/inverted_ index )。 




















倒 排 索引 是 许多 搜索 引擎 用 来 同时 在 若干 文件 中 搜索 文字 的 工具 。 它 的 工作 方式 是 预 扫 摘 文 
件 ， 把 内 容 分 割 成 单词 ， 然 后 保存 单词 与 文件 之 间 的 对 应 关系 〈 有 时 也 记录 单词 的 位 置 )。 通 过 






































这 种 方式 搜索 单词 时 ， 可 以 实现 O(1) 时 间 复 杂 度 (恒定 时 间 )。 


让 我 们 看 看 下 面 的 例子 : 


// 用 下 面 这 些 文 件 : 
filel.txt = "This is a file" 
file2.txt = "This is another file" 
// 获得 如 下 索引 : 








This, (filel.txt, 0), (file2.txt, 0) 


is, (filel.txt, 5), (file2.txt, 5) 
a, (filel.txt, 8) 

another, (file2.txt, 8) 

file, (filel.txt, 10), (file2.txt, 























现在 ， 如 果 我 们 要 查找 单词 is ， 我 们 知道 它 是 在 两 个 文件 中 〈 不同 的 位 置 )。 让 我 们 看 看 下 
面 计算 索 引 位 置 的 代码 ( 和 之 前 一 样 , 下 面 的 代码 中 有 一 些 明显 需要 改进 的 地 方 , 请 你 耐心 看 完 ， 








后 面 会 不 断 优化 )。 
#!/usr/bin/env python 


import sys 
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import os 
import glob 


def 


def 


def 


def 


def 


def 


getFileNames (folder): 
return glob.glob("%s/*.txt" % folder) 


getOffsetUpToWord(words, index): 
if not index: 
return 0 
subList = words[0:index] 
length = sum(len(w) for w in subList) 
return length + index + 1 


getWords(content, filename, wordIndexDict): 
STRIP CHARS = ",.\t\n |" 
currentOffset - 0 


for line in content: 
line - line.strip(STRIP CHARS) 
localWords - line.split() 
for (idx, word) in enumerate(localWords): 
word - word.strip(STRIP CHARS) 
if word not in wordIndexDict: 
wordIndexDict[word] - [] 
line offset - getOffsetUpToWord(localWords, idx) 
index - (line offset) « currentOffset 
currentOffset - index 
wordIndexDict[word].append([filename, index]) 
return wordIndexDict 


readFileContent(filepath): 
f = open(filepath, 'r') 
return f.read().split(' ') 


list2dict(list): 
res = {} 
for item in list: 
if item[0] not in res: 
res[item[0]] [] 
res[item[0]].append(item[1]) 
return res 


saveIndex (index): 
lines - [] 
for word in index: 
indexLine = "" 
glue = "" 
for filename in index[word]: 
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indexLine += "%s(%s, %s)" $ (glue, filename, ','.join(map(str, 
index [word] [filename] ) ) ) 
glue = "," 
lines.append("%s, %s" % (word, indexLine) ) 
f = open("index-file.txt", "w") 
f.write("\n".join(lines) ) 
f.close() 


def | start  (): 
files - getFileNames('./files') 
words - () 
for f in files: 
content - readFileContent(f) 
words - getWords(content, f, words) 
for word in (words): 
words[word] = list2dict (words [word]) 
savelndex(words) 

















. Start, () 
前 面 的 代码 很 简单 。 程 序 从 .txt 文 件 获取 任务 ， 那 正 是 我 们 需要 的 。 它 会 加 载 所 有 的 .txt 文 件 ， 
然后 分 割 成 单词 ， 计 算 这 些 单词 在 文件 中 的 偏 移 量 ， 再 把 这 些 信息 都 保存 到 index-file.txt 文 件 里 。 









































下 面 我 们 开始 性 能 分 析 ，, 看 看 结果 如 何 。 由 于 我 们 不 知道 哪个 函数 任务 繁重 ,哪个 函数 任务 
简单 ， 因 此 我 们 给 每 个 函数 都 加 上 @profile 来 分 析 函 数 性 能 。 











(1) getOffsetUpToword 


getOf fsetUpTowor d PAA E BUEHE TT PERE ITIL Gi A, AE EDM TE PAE T 
RAS AYA. LEAR HEURE ae EAA EERE. 



































Total time: 1.45378 s 
File: mapper.py 
Function: getOffsetUpToWord at line 12 


Time Per Hit i ne Contents 


@profile 
def getOffsetUpToWord(words, index): 
313868 ; = if not index: 
29682 . f return 0 
284186 106398 x s subList = words[0:index] 
284186 70307 : A length = 0 
1998159 597693 ! . for w in subList: 
1713973 514410 : E length += len(w) 
284186 75512 " " return length + index + 1 





(2) getWords 


getWords 六 数 做 了 大 量 的 动作 。 它 里 面 有 两 层 for 循 环 ， 所 以 我 们 也 要 在 上 面 使 用 装饰 希 。 
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Total time: 4.00185 s 
File: mapper.py 
Function: getWords at line 23 


Hits 


@profile 
def getWords(content, filename, wordIndexDict): 


STRIP_CHARS = ",.\t\n |" 
currentOffset = 0 





38858 13798 . . for line in content: 

38856 18337 r 4 line = line.strip(STRIP CHARS) 

38856 35749 2 localWords = line.split() 

352724 143714 z . for (idx, word) in enumerate(localWords): 
313868 139410 E ^ word = word.strip(STRIP CHARS) 

313868 170350 P » if word not in wordIndexDict: 

42527 19517 ` ; wordIndexDict[word] = [] 


313868 3058664 i $ line offset = getOffsetUpToWord(localWords, idx) 
313868 113722 K A index = (line offset) + currentOffset 

313868 109872 i s currentOffset = index 

313868 178715 $ 1 wordIndexDict[word].append([filename, index]) 


2 0 。 a return wordIndexDict 





(3) 1ist2dict 


list2dict Ph GE RET TUAE P OCR AY BCA PY NLIS PAIRE C HL LA 
一 个 元 素 作为 键 ， 第 二 个 元 素 作为 值 。 我 们 同样 加 上 eprofile 分 析 性 能 。 




















Total time: 0.448933 s 
File: mapper.py 
Function: list2dict at line 50 


Line Contents 


@profile 
def list2dict(list): 
42527 $ 7 res = {} 

356395 116712 A ^ for item in list: 

313868 139029 š 1 if item[0] not in res: 

46535 14948 . . res[item[0]] = [] 

313868 154092 :; E res[item[0]].append(item[1] 

42527 9884 ; . return res 






































reagqFilecontent 国 数 只 有 两 行 ， 就 是 简单 地 使 用 split 方 法 对 文件 内 容 进 行 处 理 。 这 里 
没有 需要 优化 的 地 方 ， 所 以 我 们 忽略 它 ， 把 注意 力 集中 到 其 他 函数 上 。 








Total time: 0.003255 s 
File: mapper.py 
Function: readFileContent at line 45 


Hits i Per Hit i Line Contents 


@profile 
def readFileContent(filepath) : 


f = open(filepath, 'r') 
return f.read().split( 'Mn' ) 
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(5) saveIndex 


saveIndex 用 一 种 简单 的 格式 生成 文件 处 理 的 结果 。 从 下 面 的 性 能 分 析 结果 可 以 看 出 , 我 们 
可 以 获得 更 好 的 结果 。 
































(69. start . 











最 后 是 主 方法 ”start _，, 它 主 要 就 是 调用 上 
WE 





他 函数 , 没有 什么 性 能 负担 , 所 以 我 们 同样 忽 


AT 





Total time: 6.09869 s 
File: mapper .py 
Function: start at line 74 


Time Per Hit 


start (): 
387 387.0 4 files = getFileNames('./files') 
9 0.0 B words - () 
9 0.0 E for f in files: 
3400 1700.0 i content = readFileContent(f) 
4923513 2461756.5 . words - getWords(content, f, words) 
16516 0.4 ` for word in (words): 
796925 18.7 a words[word] = list2dict(words[word]) 
357948 357948.0 Š saveIndex (words) 











EE, ANAT T 67 PRORCBUTERE, um TEPADA, AE BE A 
么 没有 值得 关心 的 内 容 。 于 是 我 们 一 共有 4 个 函数 需要 优化 。 


(1) geto£ fsetUpToWord 


[zs 


























证 我 们 看 看 第 一 个 函数 getoffsetUpToword， 里 面 许多 行 代 码 就 是 简单 地 把 单词 的 长 度 增 
加 到 当前 的 索引 位 置 。 有 一 种 更 加 具有 Python 风格 的 方式 ， 让 我 们 试 一 


函数 运行 共 消耗 了 1.4 秒 ， 让 我 们 简化 代码 来 缩短 程序 运行 时 间 。 增 加 单词 长 度 的 代码 可 
m 如 下 所 示 : 


def getOffsetUpToWord(words, index): 
if(index -- 0): 
return 0 
length = reduce(lambda curr, w: len(w) + curr, words[0:index], 0) 
return length + index + 1 


代码 简化 只 是 把 多 余 的 变量 声明 和 查询 取消 了 。 这 好 像 没 什么 。 但 是 ， 如 果 我 们 运行 代码 ， 
时 间 会 降 到 0.9 秒 。 不 过 代码 里 面 还 是 有 一 个 明显 的 缺陷 ， 就 是 lambda 表 达 式 。 每 当 我 们 调用 
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getoffsetUpToword 国 数 时 ， 都 要 动态 地 创建 一 个 函数 。 我 们 一 共 调 用 了 313 868 次 ， 所 以 更 好 
的 办 法 是 事先 创建 好 函数 。 我 们 在 *edquce 表 达 式 里 面 使 用 函数 引用 就 可 以 了 ， 如 下 所 示 


def addWordLength(curr, w): 
return len(w) + curr 














@profile 
def getOffsetUpToWord(words, index): 
if(index -- 0): 
return 0 
length = reduce(addWordLength, words[0:index], 0) 
return length + index + 1 


输出 结果 如 下 图 所 示 。 





otal time: 0.816949 s 
ile: mapper.py 
unction: getOffsetUpToWord at line 13 


Time Per Hit % Time Line Contents 


@profile 
def getOffsetUpToWord(words, index): 
if not index: 
return 0 


313868 

29682 
284186 
284186 


length = reduce(addWordLength, words[0:index], 0) 
return length + index + 1 








通过 一 点 小 改进 ， 执 行 时 间 降 到 了 0.8 秒 。 在 上 面 的 截图 中 ， 我 们 还 发 现 函 数 的 前 两 行 仍然 
消耗 了 大 量 不 想 要 的 Hit ( 也 是 时 间 )。if 检 测 语句 没 必要 ， 因 为 requce 表 达 式 的 初始 值 就 是 0。 
长 度 变 量 声明 没有 必要 ， 我 们 可 以 直接 返回 长 度 、 索 引 和 整数 1 的 和 。 


按照 这 个 思路 修改 代码 ， 如 下 所 示 : 


def addWordLength(curr, w): 
return len(w) + curr 















































@profile 
def getOffsetUpToWord (words, index): 
return reduce (addWordLength, words[0:index], 0) 


这 样 函数 的 总 运行 时 间 就 从 1.4 秒 降 到 了 0.67 秒 。 


(2) getWords 


+ index + 1 





让 我 们 来 看 下 一 个 函数 : getwords。 这 个 函数 非常 慢 ， 从 前 面 的 截屏 可 以 看 出 ， 它 的 运行 
时 间 长 达 4 秒 。 这 实在 很 糟糕 ， 让 我们 看 看 是 怎么 回 事 。 首 先 ， 函 数 中 最 费时 的 代码 行 是 调用 
getOffsetUpi Toword PARK . FAT A E OZ 经 优化 过 getoffsetUpToword Pa) 函数 ， 所 以 现在 运 
行 时 间 从 原来 的 4 秒 降低 到 了 2.2 秒 。 


这 里 对 副作用 的 优化 非常 合理 , 但 是 我 们 还 可 以 进一步 优化 ,我 们 用 了 一 个 wordIndexDict 


词典 变量 ， 所 以 在 插入 新 键 之 前 需要 先 检查 键 存 不 存在 。 在 函数 中 做 这 个 检查 要 消耗 大 约 0.2 秒 
时 间 。 虽然 耗 时 不 多 ， 但 仍然 可 以 优化 。 要 消除 检查 ， 我 们 可 以 用 aefaultaict 类 。 它 是 aict 
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的 子 类 ， 只 是 增加 了 一 个 功能 。 如 果 键 不 存在 ， 就 使 用 预先 设置 的 默认 值 。 这 样 就 可 以 为 程序 运 
行 节省 0.2 秒 。 
另 一 个 实用 的 小 优化 是 变量 的 声明 。 虽 然 看 着 是 小 事 ， 但 是 调用 了 313 868 次 就 无 疑 要 消耗 
一 些 时 间 了 。 因 此 ， 让 我 们 看 看 这 几 行 性 能 分 析 结 果 : 
35 313868 1266039 4.0 62.9 line offset = getOffsetUpToWord(localWords, 

idx) 


36 313868 108729 
33 313868 101932 


这 三 行 代码 可 以 用 一 行 代码 搞定 ， 如 下 所 示 : 

currentOffset += getOffsetUpToWord(localWords, idx) 

这 样 我 们 就 又 缩减 了 0.2 秒 。 最 后 我 们 对 每 一 行 和 每 个 单词 都 进行 了 strip 操 作 。 我 们 可 以 在 
加 载 文件 的 时 候 , 对 文件 内 容 使 用 几 次 replace 方 法 来 进行 简化 。 这 样 既 将 要 处 理 的 文本 清理 干 
净 了 ， 又 消除 了 在 getwords 函 数 里 查询 和 调用 方法 的 时 间 。 


新 的 代码 如 下 : 


def getWords (content, filename, wordIndexDict): 
currentOffset = 0 
for line in content: 
localWords = line.split() 
for (idx, word) in enumerate(localWords) : 
currentOffset += getOffsetUpToWord(localWords, idx) 
wordiIndexDict [word] .append([filename, currentOffset])])]) 
return wordIndexDict 


现在 只 需要 1.57 秒 了 。 还 有 一 个 优化 值得 我 们 看 看 。 这 个 优化 适合 我 们 的 例子 ， 因 为 
getOffsetUpToWord 消 数 只 用 了 一 次 。 由 于 这 个 函数 只 有 一 行 ， 我 们 可 以 把 这 一 行 直 接 写 入 
getWwords。 这 样 可 以 把 时 间 减 少 到 1.07 秒 (减少 了 0.5 秒 )。 下面 就 是 最 新 版 函数 的 样子 : 









































534 index = (line offset) + currentOffset 
5.1 


0.3 
0.3 currentOffset - index 













































































如 果 你 还 要 在 其 他 地 方 调用 这 个 函数 , 这 么 做 不 方便 维护 代码 。 开 发 过 程 中 代码 的 可 维护 性 
也 是 非常 重要 的 一 个 方面 。 当 你 要 确定 何 时 停止 优化 时 , 代码 的 可 维护 性 可 以 作为 一 个 重要 的 决 
定 因素 。 

(3) list2dict 

对 于 list2dict 函 数 没 有 什么 可 以 优化 的 , 不 过 我 们 可 以 让 它 变 得 更 易 读 , 而 且 可 以 减少 约 
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0.1 秒 的 时 间 。 我 们 又 一 次 为 了 代码 可 读 性 而 放弃 对 时 间 的 执着 。 我 们 可 以 再 一 次 使 用 
defaultdict 类 ， 去掉 检查 环节 。 最 终 代 码 如 下 : 


def list2dict (list): 
res = defaultdict (lambda: []) 
for item in list: 
res[item[0]].append(item[1]) 
return res 


这 样 处 理 后 ， 代 码 行 数 更 少 ， 更 方便 阅读 ， 也 更 容易 理解 。 








(4) saveIndex 


最 后 ， 让 我 们 看 看 saveIndex 函 数 。 通 过 之 前 的 分 析 报 告 ， 可 以 看 到 一 共用 了 0.23 秒 完成 索 
引文 件 的 预 处 理 和 保存 。 这 个 性 能 已 经 很 好 了 ， 不 过 我 们 还 可 以 对 字符 串 连 接 进 行 一 点 优化 。 


保存 数据 之 前 , 我 们 把 一 些 字 符 串 组 合 起 来 构成 一 个 单词 。 在 同样 的 循环 体 中 , 我 们 还 重 置 
了 indaexLine 和 glue 变 量 。 这 些 操作 放 在 一 起 消耗 了 大 量 的 时 间 ， 所 以 我 们 应 该 改变 策略 。 


优化 后 的 代码 如 下 : 


def saveIndex (index): 
lines = [] 
for word in index: 
indexLines = [] 
for filename in index[word]: 
indexLines.append("($s, %s)" $ (filename, 
','.join(index[word] [filename] ) ) ) 
lines.append(word + "," + ','.join(indexLines)) 
f = open("index-file.txt", "w") 
f.write("\n".join(lines) ) 
f.close() 


你 会 看 到 ， 在 前 面 的 代码 中 ， 我 们 改变 了 for 循 环 结构 。 现 在 不 是 把 新 的 字符 串 加 入 
indexLine 变 量 , 而 是 追加 到 列表 里 。 我 们 还 去 掉 了 map 调 用 , 这 样 直接 调用 join 就 可 以 处 理 字 
符 串 。map 函 数 被 移动 到 了 1ist2dict 函 数 内 ， 在 添加 字符 串 到 列表 时 ， 直 接 用 索引 即 可 。 


最 后 我 们 用 + 操作 符 连接 字符 串 ， 而 不 是 用 C 语 言 字符 串 的 连接 方式 (% )， 后 者 耗 时 更 多 。 
最 终 ， 抑 数 的 执行 时 间 从 0.23 降 到 了 0.13 秒 ， 速 度 提 升 了 0.1 秒 。 





























2.4 小 结 
这 一 章 介 绍 了 两 个 Python 性 能 分 析 需 : cProfile, if AWW; line profiler, 可 以 
让 我 们 看 到 每 一 行 代码 的 性 能 。 我 们 还 介绍 了 一 些 使 用 它们 分 析 和 优化 代码 的 示例 。 


在 下 一 章 , 我 们 将 看 到 一 些 可 视 化 工具 , 在 工作 中 可 以 帮助 我 们 展示 本 章 出 现 的 性 能 分 析 数 
据 ， 但 它们 是 通过 图 形 的 方式 展示 数据 的 。 











可 视 化 一 一 利用 GUI 理解 
性 能 分 析 数 据 











虽然 前 面 两 章 已 经 介绍 了 性 能 分 析 方 法 , 但 是 整个 分 析 过 程 中 我 们 仿佛 置身 于 黯淡 无 光 的 黑 
夜 之 中 "。 我 们 一 直 都 在 观察 各 种 性 能 分 析 数据 。 我 们 试图 通过 努力 ， 不 断 地 降低 Hit 次 数 、 运 行 
时 间 ， 以 及 优化 其 他 性 能 指标 。 但 是 这 些 数字 表达 的 实际 意义 有 时 难以 理解 。 


根据 眼前 的 性 能 分 析 结 果 , 我 们 很 难 观察 整个 程序 的 全 貌 。 如 果 系 统 再 复杂 一 点 儿 ， 要 从 全 
局 观察 性 能 分 析 结 果 就 会 更 加 困难 。 


由 于 我 们 是 人 而 非 计算 机 ， 所 以 当 拥 有 可 视 化 的 辅助 手段 时 ,我们 的 工作 效果 会 更 好 。 在 性 
能 分 析 过 程 中 ， 如果 能 够 更 好 地 理解 数据 的 意义 将 大 有 神 益 。 为 此 ,我 们 需要 使 用 可 视 化 工具 来 
展示 上 一 章 见 过 的 数据 。 这 些 工具 将 会 给 予 我 们 许多 帮助 。 通 过 它们 可 以 快速 定位 问题 , 解决 性 
能 瓶颈 。 另 外 ， 我 们 也 会 对 系统 有 更 全 面 的 认识 。 

这 一 章 将 介绍 两 种 可 视 化 工具 。 
口 KCacheGrind/pyprof2calltree: 这 套 组 合 工具 可 以 把 cProfile 的 输出 结果 转换 成 
KCacheGrind 支 持 的 格式 ， 从 而 帮助 我 们 实现 数据 可 视 化 。 


Q RunSnakeRun ( http://www.vrplumber.com/programming/runsnakerun/ ); 这 个 工具 也 可 以 
把 cProfile 的 输出 结果 可 视 化 。 它 还 带 有 方块 图 和 可 排序 的 列表 。 


对 于 每 个 工具 ， 我 们 都 会 介绍 基本 的 安装 方法 和 用 户 界面 。 然 后 ， 我 们 将 用 这 些 工 具 对 第 2 
曹 中 示例 的 性 能 输出 结果 进行 分 析 。 




























































































3.1 KCacheGrind/pyprof2calltree 


我 们 要 看 的 第 一 个 GUI 工具 是 KCacheGrind。 这 个 数据 可 视 化 工具 可 以 用 来 分 析 和 展示 多 种 
格式 的 性 能 分 析 数 据 。 在 示例 中 ， 我 们 将 使 用 cprofile 的 输出 数据 。 要 实现 数据 可 视 化 ， 我 们 








D 作者 是 在 说 命令 行 工具 。 一 一 译 者 注 
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还 需要 使 用 命令 行 工具 pyprof2calltree。 





这 个 工具 是 著名 的 lsprofcalltree.py ( https://people.gnome.org/~johan/lsprofcalltree.py ) 
项 目的 升级 版 。 它 更 像 是 Debian 系 统 里 的 kcachegrind-converter ( https://packages.debian.org/ 
en/stable/kcachegrind-converters )。 我 们 将 通过 这 个 工具 把 cProfile 的 输出 结果 转换 成 
KCacheGrind 可 以 读 取 的 形式 。 




















3.1.1 安装 


安装 pyprof2calltree 之 前 ,需要 先 安装 Python 包 管理 器 bip。 然 后 使 用 下 面 的 命令 安装 
pyprof2calltree 即 可 : 











$ pip install pyprof2calltree 


需要 注意 的 是 , 这 个 安装 步骤 和 安装 指令 都 默认 是 在 Ubuntu 14.04 Linux 发 行 版 上 运行 的 , BR 
非 有 其 他 提示 。 


现在 ， 再 安装 KCacheGrind， 其 安装 方法 有 点 不 同 。 它 是 KDE 桌 面 环境 的 一 部 分 ， 所 以 如 果 
你 已 经 安装 了 这 个 桌面 环境 ， 那 么 KCacheGrind 默 认 已 经 安装 好 了 。 但 是 ， 如 果 你 没有 KDE 环 境 
(假如 你 用 的 是 Gnome ), 那么 你 可 以 通过 操作 系统 的 包 管理 器 来 安装 。 例 如 在 Ubuntu 系 统 中 ， 安 
装 命 令 如 下 所 示 : 














$ sudo apt-get install kcachegrind 


SS . 这 个 命令 运行 之 后 ， 可 能 需要 安装 一 些 与 工具 没有 直接 关系 ， 但 是 与 KDE 
境 有 依赖 的 软件 包 。 具 体 安 装 的 速度 就 由 你 的 网 速决 定 了 。 











Windows 和 OS 义 用 户 可 以 安装 KCacheGrind 的 分 支 版 本 QCacheGrind, 它 是 一 个 已 编译 过 的 可 
执行 文件 。 

Windows 用 户 可 以 从 http://sourceforge.net/projects/qcachegrindwin/ 下 载 , OSX 用 户 可 以 通过 下 
面 的 命令 安装 











$ brew install qcachegrind 


3.1.2 用 法 


pyprof2calltree 模 块 有 两 种 用 法 : 一 种 是 通过 命令 行 加 参数 的 形式 ， 男 一 种 是 在 REPL 
( read-eval-print loop ， 读 取 - 求 值 - 输 出 循环 ) 交互 式 编程 环境 里 运行 (也 可 以 根据 需要 在 性 能 分 
析 的 脚本 中 运行 )。 
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第 一 种 用 法 ( 命令 行 形式 ) 在 我 们 已 经 有 性 能 分 析 输 出 文件 时 , 使 用 很 方便 。 使 用 这 个 工具 ， 
通过 下 面 的 命令 就 可 以 获得 结果 : 





$ pyprof2calltree -o [output-file-name] -i input-file.prof 
有 一 些 参数 可 以 帮助 我 们 处 理 不 同 的 情况 。 其 中 两 个 参数 解释 如 下 。 


O -k: 如 果 想 立即 运行 KCacheGrind， 就 可 以 加 上 这 个 参数 。 
口 -r: 如 果 还 没有 性 能 分 析 数 据 ， 可 以 用 这 个 参数 直接 分 析 Python 脚 本 文件 生成 最 终结 果 。 














如 果 想 在 REPL 里 面 使 用 它 ,可 以 从 pyprof2calltree 包 里 导入 convert 或 visualize 国 数 
(也 可 以 两 个 都 导入 ) 第 一 个 函数 会 输出 性 能 分 析 结果 文件 ,第 二 个 函数 会 直接 启动 KCacheGrind 
显示 结果 。 


示例 如 下 : 


from xml.etree import ElementTree 
from cProfile import Profile 
import pstats 
xml content = '<a>\n' + '\t<b/><c><d>text</d></c>\n' * 100 + '</a>' 
profiler = Profile() 
profiler.runctx ( 
"ElementTree.fromstring(xml content)", locals(), globals()) 


from pyprof2calltree import convert, visualize 
stats - pstats.Stats(profiler) 
visualize(stats) # 运行 kcachegrind 


代码 将 直接 运行 KCacheGrind， 结 果 如 下 面 的 截图 所 示 。 
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在 上 面 的 截图 中 ， 我 们 可 以 看 到 左边 (1) 是 我 们 在 前 一 章 看 到 的 结果 ， 在 右边 (2) 我 们 选 了 一 
个 标签 一 一 Callee Map. Callee Map 里 面 显示 了 一 些 和 矩形 ， 每 个 矩形 与 左边 列表 里 对 应 郴 数 的 消 
耗 时 间 一 致 。 


在 左边 窗口 中 ， 有 两 列 需 要 注意 。 


Q Incl. 列 : 这 个 指标 表示 函数 的 累计 消耗 时 间 。 就 是 说 它 会 把 函数 消耗 的 时 间 和 其 他 被 它 调 
用 的 函数 消耗 的 时 间 加 起 来 统计 。 如 果 在 这 一 列 中 函数 消耗 的 时 间 很 高 ， 并 不 一 定 是 这 
个 函数 消耗 的 时 间 很 长 ， 也 可 能 是 它 调用 的 函数 运行 时 间 很 长 。 

口 Self 列 : 只 包含 函数 本 身 消耗 的 时 间 , 不 包括 它 调用 的 函数 需要 的 时 间 。 因 此 ， 如 果 函 数 
的 Self 值 很 高 ， 表 示 这 个 函数 本 身 消耗 的 时 间 很 长 ， 它 可 能 是 性 能 优化 的 起 点 。 


























另 一 个 有 用 的 可 视 化 图 是 函数 调用 关系 图 (Call Graph )， 选 择 一 个 函数 后 可 以 在 右 下 角 选 
项 卡 里 打开 函数 调用 图 , 它 将 显示 函数 调用 的 具体 过 程 (调用 的 次 数 )。 上 面 示例 的 结果 如 下 图 
所 示 。 
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3.1.3 ”性 能 分 析 器 示例 : TweetStats 
现在 让 我 们 回 到 第 2 章 的 示例 , 看 看 如 何 用 pyprof2calltree/kcachegrind 组 合 套件 分 析 


LA 
tHE o 


Loe 





这 次 我 们 不 用 斐 波 那 契 数列 的 例子 了 , 因为 那个 例子 非常 简单 , 而 且 我 们 也 已 经 做 过 两 遍 了 。 
所 以 我 们 这 里 使 用 TweetStats 示 例 。 程 序 会 直接 读 取 一 组 推 文 ， 然 后 进行 一 些 统计 。 我 们 没有 调 
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整 代码 ， 所 以 直接 参考 第 2 章 的 示例 即 可 。 


由 于 原来 的 脚本 性 能 分 析 方式 是 打印 性 能 统计 信息 , 所 以 我 们 要 做 一 些 调整 。 你 会 看 到 程序 
只 做 了 一 点 小 改动 : 


import cProfile 
import pstats 
import sys 


from tweetStats import build_twit_stats 


profiler = cProfile.Profile() 
profiler.enable() 


build twit stats() 

profiler.create stats() 

stats - pstats.Stats(profiler) 

# 把 stats 保 存 到 tweet-stats.prof 文 件 里 ， 

# 而 不 是 打印 到 命令 行 中 。 

stats.strip dirs().sort stats('cumulative').dump stats('tweet-stats.prof') 


程序 运行 后 ， 性 能 统计 信息 保存 在 tweet-stats.prof 文 件 中 。 我 们 可 以 用 下 面 的 命令 把 文件 转 
换 成 可 视 化 : 


$pyprof2calltree -i tweet-stats.prof -k 


对 应 的 可 视 化 效果 如 下 面 的 截图 所 示 。 


Mor" 4^» -è 会 wp + |% Relative PD cycle Detection ej Relative to Parent. <> Shorten Templates Ticks 
[Feat Profile DE build twit stats 





Callers allCatiers Caliee Map Source Code 






method ‘strip’ of ‘str’ o. "02 
16$ 168 1 m «method ‘read’ of ile’ o... 802088 02 14.py 





130 130 (0) m «method “append of "is... (unknown) 
1.0 — 000 $64850 m «method ‘append of 'lis... (unknown) 
0.00 0.00 1 d «len» 802088 02 14.py 
000 000 (0) a «method ‘disable’ of" Is... 802088 02 14.py 
000 000 1 m «method ‘disable’ of * Is... (unknown) 
000 000 1 a «open» 02088 02 14.y 
000 000 (0) a1 create stats Profile py 
000 000 3 ii get, percentage 02088 02, 14.py 
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和 之 前 一 样 ， 通 过 builq_twit_stats 国 数 的 Callee Map ， 我 们 可 以 看 到 整个 程序 的 函数 调 
用 情况 。 里 面 的 瓶颈 很 明显 ( 右边 最 大 的 几 个 矩形 ): read data. split LA RAW ATR 
get_stats 方 法 。 


在 get_stats 子 数 矩 形 里 面 ， 我 们 可 以 看 到 冰 数 是 如 何 构 成 的 ，inc_stat 函 数 和 Python 字 
符 串 的 find 函 数 。 我 们 知道 第 一 个 函数 是 示例 代码 里 的 。 这 个 函数 非常 短 ， 所 以 消耗 的 时 间 应 
该 都 是 函数 查询 累计 的 (不 过 我 们 也 调用 了 大 约 76 万 次 )。fino 方 法 也 是 如 此 。 由 于 它 被 我 们 调 
用 的 次 数 太 多 ,所 以 总 的 函数 查询 时 间 也 很 明显 。 让 我 们 用 一 个 非常 简单 的 方法 来 改造 这 个 函数 。 
首先 把 jnc_stat 函 数 删 掉 , 然后 把 它 的 内 容 内 联 到 get_stats 函 数 里 , 之 后 再 把 字符 串 的 find 
方法 改 成 in 方 法 。 结 果 将 会 如 下 面 的 截图 所 示 。 
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|wit_stats 802088 03 14 2.py 

lata BO2088 03 14_2.py 


"read" of ‘file’... BO2088 03 14 2.py 

'append' of ‘lis... (unknown) 

id 'append' of lis... (unknown) 
802088 03 14 2.py 

lu ‘disable’ of* Is... cProfile.py 
802088 03 14 2.py 

|stats cProfile.py 
Ircentage B02088 03 14 2.py 
Jesults B02088 03 14 2.py 


‘split’ of 'sto... B02088 03 14 2.py 
B02088 03 14 2.py 
d 'strip' of ‘stro... B02088 03 14 2.py 








Callee Map 发 生 了 显著 的 变化 。 我 们 会 发 现 get_stats 函 数 不 再 调用 其 他 函数 了 ， 因 此 查询 
时 间 就 没有 了 。 现 在 它 只 占用 9.45% 的 运行 时 间 ， 比 原来 降低 了 23.73%。 

上 面 的 结论 和 我 们 在 前 一 章 得 出 的 结论 一 样 ， 只 不 过 这 次 我 们 是 通过 另 一 种 方法 得 到 的 。 让 
我 们 继续 按照 上 一 章 的 优化 过 程 观察 函数 Callee Map 的 变化 。 
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Moe" 4&5 ~ > Bp + | % Relative DB Cycle Detection; «fe Relative to Parent <> Shorten Templates Ticks 
Flat Profile B® bulld twit stats 


Search: [No Grouping) = Types Callers AllCallers Cagee Map Source Code 
ind Seif Called function Location = 
mms 10007 0.00 (0) 3 build twit, stats. o2 M 
mms 10007 8 44,44 18 read data 802088 02 16.py 
= 5176 m 51.76 604612 5 «method ‘split’ of stro... 802068 02 1&py 
204 — 204 604613 m «len» 802088 02 1&py 
16 176 (0) = «method 'append' of "lis... (unknown) 


16 0,00 551 462 m «method ‘append’ of ‘lis... (unknown) 
0.00 1 m «method 'disable' of "Is... cProfile.py 


oo o 13 «open 802088 02 16.py 
0.00 0.00 40) 3 create stats Profile py 

000 000 3 ai get, percentage 802088 02 1&py 
000 000 1 m print. results 802088 02 16.py 








在 上 面 的 截图 中 ， 我 们 选择 左边 的 puild_twitt_stats 函 数 (在 左边 的 列表 中 )， 会 发 现 
里 面 调用 的 函数 都 是 字符 串 的 简单 方法 。 


令 人 遗憾 的 是 ，KCacheGrind 不 能 显示 程序 运行 消耗 的 总 时 间 。 但 是 ，Callee Map 已 经 清晰 
地 展示 了 代码 简化 和 优化 的 结果 。 


3.1.4 性 能 分 析 器 示例 : 倒 排 索引 


让 我 们 再 看 看 第 2 章 的 示例 : 倒 排 索引 。 让 我 们 对 代码 稍 作 修 改 以 生成 性 能 统计 文件 ， 方便 
后 面 用 KCacheGrind 进 行 分 析 。 


我 们 需要 修改 的 是 代码 的 最 后 一 行 ， 不 需要 调用 start 函数。 代码 修 改 结果 如 下 : 








profiler = cProfile.Profile() 

profiler.enable() 

__start__() 

profiler.create stats() 

stats - pstats.Stats(profiler) 

stats.strip dirs().sort stats('cumulative').dump stats('inverted-index-stats.prof' 


) 


现在 运行 脚本 就 会 生成 一 个 inverted-index-stats.prof 文 件 。 然 后 ， 我 们 可 以 用 下 面 的 命令 行 启 
动 KCacheGrind: 


$ pyprof2calltree -i inverted-index-stats.prof -k 


首先 看 到 的 结果 如 下 所 示 : 
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ba} Open <p a @ up ~ |% Relative |") cycle Detection + Relative to Parent <> Shorten Templates Ticks 
Flat Profile QW start 

Search (No Grouping) : Types Callers AllCallers Caliee Map Source Code 

incl. Self Called Function 

mm 10001 — 3.55 (om stat | 

ms 6605 m 4436 3 8i get Words 

1 18.751 13.97 16049 a listadict 

D 11.27 4.90 1 y saveindex 


613 6.25 282590 B «method ‘get’ 
5.88 ^ 6.13 298639 m «method ‘app: 


$51. 551 (0) at «method ‘strig 
$.51 000 278013 m «method ‘strig 
$39 539 (0) a «method ‘split 


5.39 0.00 136 721 B «method ‘split 
5.15 0.00 21780 BH «map» 








$15 — 515 (0) m «map» 
404 — 380 141295 E getOffsetUpT: 

058 — 000 3 m readFileConte Ticks — Tickspercall Count Callee 

0.74 000 21781 m «method ‘join! mr 6605 179 3 Bi getWords (inverted-index.py) 

0.74 0.74 (0) m «method ‘join’ 1 1875 O 16049 m list2dict (inverted-index py) 

0.12 0.00 11492 m «len» 1 1.27 92 1 a savelndex (Inverted-index py) 

012 000 1 m <method ‘writ 0.98 2 3 m readFileContent (jnverted-index.py) 
012 012 (0) m «method ‘writ 

0.00 000 1 m « sre.compile: 

000 000 1 ai «filter» 

0.00 0.00 (0) at «filter» 

0.00 0.00 1 88 <isinstance> 

0.00 0.00 (0) m <isinstance> 

0.00 0.00 1 i «isinstance» 

000 000 2 m <isinstance> 

0.00 0.00 6 I «isinstance» 

ann nan os mm obe - ts Callees CallGraph AllCallees Caller Map Machine Code 








pyprof2calitreeC7MuW.og [1] - Total Ticks Cost: 816 


首先 对 左边 的 列表 按照 Self 字 段 进行 排序 ， 这 样 我 们 就 可 以 看 到 内 部 消耗 时 间 最 长 的 函数 了 
( 并 不 是 函数 总 共 消 耗 的 时 间 ， 不 包含 对 其 他 函数 的 调用 时 间 )。 排 序 后 结果 如 下 所 示 : 








Incl. Self Called | Function ^A 
EN 66.05 B 44.36 3 WE getWords 
J 18.75 | 13.97 16049 m list2dict 
6.13 6.25 282 590 mi «method ‘get’ 
5.88 6.13 298 639 8| «method 'app: 


5.51 5.51 (0) 8 «method 'strif 

5.39 5.39 (0) 8 «method 'split 

5.15 5.15 (0) M «map» LJ 
! 11.27 4.90 1 到 savelndex 

4.04 3.80 141295 Bi getOffsetUpTi 
mew 100.61 3.55 (0m start — 

0.74 0.74 (0) 8 «method ‘join’ 

0.12 0.12 (0) 8 «method ‘writ 

0.00 0.12 1 8 «len» 


5.51 0.00 278013 m «method 'strip 
5.39 0.00 136 721 m «method 'split 
5.15 0.00 21780 B «map» 

0.98 0.00 3 Bl readFileConte 
0.74 0.00 21781 B «method ‘join’ 
0.12 0.00 11492 m «len» 











0.12 0.00 1 m «method 'writ 
0.00 0.00 1 E « sre.compile: 
0.00 0.00 1 8 «filter» 

0.00 0.00 (0) s «filter» 

OOD OAD 4 

















因此 ， 通 过 前 面 的 列表 可 以 看 出 ， 目 前 最 成 问题 的 两 个 函数 是 getwords 和 1ist2gict。 
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第 一 个 函数 可 通过 以 下 几 种 方式 改进 。 

















D wordIndexDict 可 以 改 成 defaultqdict 类 型 ， 这 样 做 可 以 把 if 语 句 省 去 。 





口 为 了 简化 代码 ， readFileCont rt 函数 里 的 strip 语 句 也 可 以 去 掉 。 
a 许多 赋值 语句 也 可 以 去 掉 ， 直 接 使 用 最 终结 果 可 以 节省 一 些 时间 。 





这 样 我 们 的 getwordas 国 数 如 下 所 示 : 


def getWords(content, 
currentOffset 


= 0 


filename, wordIndexDict): 


for line in content: 
= line.split() 


localWords 
for (Leow; 


word) 


in enumerate(localWords): 


currentOffset = getOffsetUpToWord(localWords, idx) + 

currentOffset 

wordIndexDict [word] .append([filename, currentOffset] ) 
return wordIndexDict 


现在 ， 如 果 我 们 再 运行 KCacheGrind， 会 发 现 Callee Map 和 性 能 数据 会 有 一 点 不 同 。 





|Search: 


nd. 


094 
6.75 
6.57 
' 1445 
mmy 101.50 
432 
7.69 
244 
169 
0.94 
0.19 
O75 
6.38 
2.44 
1.69 
0.94 
000 





(No Grouping) -~ 


Self Called Function 


, 50.28 M 37.15 3 getWords 


1 24.201 18.001 17464 m list2dict 


7.13 300054 m «method ‘appt 


6.75 (0) m <map> 
657 (0) 2 «method ‘split 
6.19 1 a saveindex 

4.88 (0) m set. 

4.13 141295 @ getOffsetUpTc 
3.94 3 m readFileconte; 
244 (0) a «method ‘strip 
1.69 (0) m «method ‘get’ 






0.94 (0) I «method ‘Join’ 
0.19 17464 m «lambd EET 
0.00 2320) M «map» 
0.00 136721 m «method ‘split 
0.00 136 718 3 «method ‘strig 
0.00 141295 ai «method ‘get 

0.00 23262 «method ‘join’ 
200 (Q) m < «re romnile: 


Types Callers AllCallers Callee Map Source Code 















getwords 


Ticks Ticks percall Count Callee 


5.44 
4.32 
2.03 
0.19 


O 136 718 m «method ‘split’ of ‘str’ objects» 

0 141295 a getoffsetupToword (inverted index py) 

© 141 295 m «method ‘append’ of ‘list’ objects» (inverted-index.py) 
O 17464 B «lambda» (inverted-index.py) 








"EUER, KAHI STI 
开 这 个 函数 之 前 还 有 一 个 细节 值得 我 们 关注 。getwords 子 数 一 共 调用 了 getoffsetUpToword 
函数 141 295 次 ， 全 部 消耗 在 查询 时 间 上 面 ， 值 得 我 们 好 好 看 看 。 下 面 我 们 就 来 解决 这 个 问题 。 


在 上 一 章 我 们 已 经 解决 了 这 个 问题 。 我 们 可 以 把 getoffsetUpTowWord 了 国 数 改写 成 一 行 ， 这 





时 间 〈Incl. 列 ) 和 内 部 运行 时 间 (Selfy) 都 减少 了 。 但是， 在 离 

















样 就 可 以 把 它 直 接 内 联 到 getwords 里 面 ,避免 查询 时 间 。 解 决 之 后 让 我 们 再 看 看 性 能 Callee Mapo 
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Search: (No Grouping) > Types Callers AllCallers Callee Map Source Code 
incl. Self Called Function Lo 
a 53.18 可 33.52 3 8 getwords iw 
" 26.031 20.60 17464 m list2dict inw 
1 10.67! 9.93 141295 m «reduce» inv 
824! 824 (0) m «method ‘append’ of "lis... glc 
6.74 6.74 (0) m «method ‘split’ of ‘stro... gic 
mm; 100.94 5.62 (0) m stat. inv 
8.24 5.43 1 3 saveindex inv 
787 4312 3 m readFileContent iw 
2.43 243 (0) m «method ‘strip’ of'str' o... gic 
1.87 1.87 (0) m «method ‘join’ of "str ob... see 
0.75 0.75 40725 M «lambda» inv 
0.75 0.56 11492 m addwordLength inv 
000 0.19 1 3 «lens po 
8.05 0.00 323315 m «method 'append' of "lis... (ur. 
6.74 0.00 136 721 a «method ‘split’ of 'str' o... (ur 
243 0.00 136 718 3 «method ‘strip’ of 'str' o... (ur getWords 
1.87 0.00 40726 B «method join of ‘str ob... (ur p 
019 000 11492 m «len» (ur 953185 
0.00 0.00 (0) m « sre.compile» gle 
0.00 0.00 1 8 <_sre.compile> (ur 
0.00 0.00 1 a <filter> gle 
0.00 0.00 1 m <isinstance> (ur 
000 000 1 8 <isinstance> (ur 
0.00 0.00 2 M «isinstance» sre 
0.00 0.00 6 E <isinstance> (ur 
0.00 0.00 3 m «lambda» gle 
0.00 0.00 2 m «lens (ur 
nan nna HL dent ts Callees Call Graph AllCallees Caller Map Machine Code 





Ipyprof2calitreeF6le 18 loq [1] - Total Ticks Cost: 534 


现在 , 总 运行 时 间 反 而 增加 了 , 不 过 不 用 担心 。 这 是 因为 一 个 函数 调用 其 他 函数 的 时 间 减 少 ， 
会 导致 总 时 间 也 发 生变 化 。 但 是 ,我们 需要 关心 的 函数 本 身 的 运行 时 间 Self) 降低 了 约 4%。 


前 面 的 截图 还 显示 了 函数 调用 关系 图 ， 从 图 中 可 以 看 出 ， 即 使 我 们 做 了 改进 ，requce 函 数 
依然 要 调用 100 000 次 以 上 。 如 果 你 仔细 看 getwords 也 数 的 代码 ， 会 发 现 我 们 不 需要 reduce 扬 
数 。 这 是 因为 每 次 调用 时 我 们 都 要 把 前 面 的 调用 次 数 加 上 ， 其 实 我 们 可 以 简化 代码 : 














def getWords(content, filename, wordIndexDict): 
currentOffset - 0 
prevLineLength = 0 
for lineIndex, line in enumerate(content): 
lastOffsetUptoWord = 0 
localWords = line.split() 


if lineIndex > 0: 
prevLineLength += len(content [lineIndex - 1]) +1 
for idx, word in enumerate(localWords) : 
lf 1dX > 0: 
lastOffsetUptoWord += len(localWords[idx-1]) 
currentOffset = lastOffsetUptoWord + idx + 1 + prevLineLength 


wordIndexDict[word].append([filename, currentOffset] ) 


E 


运行 调整 过 的 代码 ， 会 看 到 分 析 结 果 又 变化 了 。 
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Search: (No Grouping) > Types Callers AllCallers CalleeMap Source Code 
incl. Self Called Function Lo 
LJ 39.04 9 30.77 3 B getwords inv 
W — 328834 2615 16014 a list2dict inv 
981! 981 (0) m «method ‘append of lis... _ i 
mw 9731 673 TES start. inv 
923 5.96 1 8 saveindex inv 
mm» 10152 462 (0) at «module» inv 
885 3.65 3 m readFileContent inv 
288 288 (0) a «method ‘replace’ of ‘str... utf 
0.00 2.50 1H <method ‘split of 'str'o... i 
212 242 (0) m «method ‘join’ of ‘str’ ob... sre 
0.00 232 10 8i «len» sre 
1.15 115 37775 M «lambda» inv 
058 0.58 (0) M « codecs.utf 8 decode» sre 
0.38 0.38 15323 m «method ‘strip’ of "str o... inv 
019 0.19 (0)2« impot » sre 
0.19 0.19 (0) 可 «method ‘encode’ of ‘un... sre 


0.19 0.19 (0) 3 «method ‘write of 'file" se 
942 0.00 320365 M «method ‘append’ of "lis... (ur 
2.88 0.00 76615 m «method 'replace' of 'str... (ur 
2.4 0.00 15326 s «method ‘split’ of *str o (ur 
2.12 0.00 37776 B «method 'Join' of ‘str’ ob... (ur 





1.92 0.00 143616 3 «len» (or 
096 000 3 a «method 'decode' of ‘str... inv 
0.58 0.00 38 « codecs utf 8 decode» (ur 
058 0.00 3 s decode utf 
019 000 1 a <_import_> (ue 
019 000 3 m «method 'encode' of ‘un... (ur 
nen nan a mt eneth ad Nata? af taas foo |® 


Callees CallGraph AllCallees Caller Map Machine Code 








pyprof2catitreedm4wad.tog [1] - Total Ticks Cost: 520 


现在 函数 运行 时 间 ( Incl. 列 ) 明 显 降低 了 , 因此 函数 消耗 的 时 间 更 少 了 ( 正 是 我 们 所 期 望 的 ) 
内 部 运行 时 间 〈 Self 列 的 值 ) 也 下 降 了 ， 这 说 明 我 们 用 更 少 的 时 间 完 成 了 同样 的 事情 ( 因为 这 列 
数据 的 时 间 不 包含 调用 其 他 函数 的 时 间 )。 











3.2 RunSnakeRun 


RunSnakeRun 是 另 一 个 可 对 性 能 分 析 结 果 进 行 可 视 化 的 工具 ， 可 以 帮助 我 们 理解 数据 。 这 个 
项 目 是 KCacheGrind 的 简化 版 。KCacheGrind 也 适用 于 C 和 C++ 开发 者 ， 而 RunSnakeRun 是 专门 为 
Python 开发 者 定制 的 。 


之 前 在 用 KCacheGrind 的 时 候 ， 如 果 你 想 看 到 cprofile 的 图 形 ， 需 要 用 其 他 工具 
(pyprof2calltree) 打开 。 现 在 不 需要 了 ，RunSnakeRun 知 道 如 何 读 取 和 解释 分 析 结 果 ， 所 以 
我 们 只 要 设置 好 文件 路 径 就 行 了 。 


这 个 工具 可 以 提供 的 特征 如 下 所 示 。 
口 可 排序 的 网 格 视图 ， 包 括 : 


mu 函数 名 称 

总 调用 次 数 

m 累计 时 间 

m 文件 名 和 行 号 
口 函数 的 具体 调用 信息 ， 比 如 函数 的 调用 者 和 被 调用 者 名 称 
O 面积 与 函数 运行 时 间 成 正比 的 方块 图 
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3.2.1 安装 
安装 这 个 工具 之 前 ， 首 先 需要 安装 一 些 依赖 包 ， 主 要 有 下 面 三 个 依赖 


口 Python 性 能 分 析 器 
O wxPython (2.8 或 以 上 版 本 ，http://www.wxpython.org/ ) 
O Python 2.5 或 以 上 版 本 ,暂时 不 支持 Python 3.x 版 本 





执行 安装 命令 还 需要 用 pip (https://pypi.python.org/pypi/pip )。 








因此 , 在 安装 之 前 请 保证 这 些 依赖 都 已 安装 好 。 如 果 你 用 的 是 基于 Debian 的 Linux 发 行 版 ( 比 
如 Ubuntu )， 你 可 以 用 下 面 的 命令 行 确保 所 有 的 依赖 都 得 到 安装 ( 前 提 是 Python 已 经 安装 好 了 ): 


$ apt-get install python-profiler python-wxgtk2.8 python-setuptools ERE 


[ 对 于 Windows 和 OS X 用 户 ， 需 要 先 安装 适合 自己 系统 的 依赖 包 可 执行 文件 。 ] 























之 后 用 下 面 的 命令 安装 即 可 : 
$ pip install SquareMap RunSnakeRun 


然后 ， 就 可 以 使 用 了 。 


3.2.2 ”使 用 方法 
现在 ， 为 了 尽快 上 手 使 用 ， 让 我 们 回 到 前 面 的 例子 invertea-inaex.py。 


我 们 还 是 用 cProfile 作 为 性 能 分 析 器 把 分 析 结果 输出 到 一 个 文件 里 。 然 后 , 调用 runsnake 
打开 文件 : 











$ python -m cProfile -o inverted-index-cprof.prof inverted-index.py 
$ runsnake inverted-index-cprof.prof 


截图 如 下 所 示 : 
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ib CP recen itinere : 可 排序 列表 
Name Calls Rcalls — Local /call Cum /call File Line 
Counter 1 1 0.00107 0.00001 0.00107 000001 collectio.. 387 
«method. 3 3 0.00107 0.00000 0.00107 0.00000 -~ 0 
compile 2 2 0.00089 0.00000 0.17266 0.00048 repy 188 
iMt 2 2 0.00089 — 0.00000 0.00249 — 0.00001 — sre pars. 178 
escape 2 2 0.00089 0.00000 0.00125 — 0.00000 sre pars.. 257 
lemetho... 6 6 0.0007! 0.00000 (0.00001 00000 -~ 0 
petFlleN.. 1 1 0.00053 0.00000 0.07074 0.00040 — inverted-., 10 CallMap 方 块 图 
sfilter> 1 1 0.00053 — 000000 0.00089 0.00000 = 0 
len 4 4 0.00053 0.00000 — 0.00071 0.00000 — sre pars. 126 
prote — 1 1 0.00053 — 0.00000 0.00053 0.00000 — cProfile.py 66 
«method... 1 1 0.00053 0.00000 0.00053 0.00000 = 0 
kmetho.. 2 2 0.00053 — 0.00000 0.00053 000000 ~ 0 
[imt — 3 3 0.00053 0.00000 0.00053 0.00000 sre pars.. 90 
| simple 1 1 0.00036 0,00000 0.00089 0.00000 sre com... 354 
append 7 7 0.00036 — 0.00000 0.00089 — 0.00000 — sre pars. 138 
red : : pns S puce dx sre. pars... T Callees | AllCallees | Callers AllCallers Source Code 
|«method... . ! - 
lambda» 3 3 0.00006 0,0000 000036 0.00000 globipy 77 «Name — Cels — RCols — Loca — /ol — Cum — Cal — File 
«method... 3 3 0.00036 0.00000 0.00036 0.00000  - o 
Kor» 7 7 0.00036 0.00000 0.00035 0.00000 = 0 
metho., 1 1 0.00018 — 0,00000 O00018 000000 ~ 0 p VESTAS 
hormcase 1 1 0.00018 0.00000 0.00008 0.00000 — posixpat.. 51 函数 详细 信息 
TupleCo,. 1 1 0.00018 — 0.00000 0.00016 — 0.00000 pstats.py 451 
setite. 1 1 0.00018 — 0.00000 0.00018 — 0.00000 — sre pars. 134 
«method. 1 1 0.00018 0.00000 0.00008 000000 ~ 0 
j«metho., 2 2 0.00018 0.00000 0.00018  Q00Q00  - o 
identity... 6 6 0.00018 — 0.00000 0.00018 0.00000 srecom.. 24 
o 2 0.00000 0.00000 100.00000 0.28061 * 
Counter@collections.py:357 [0.00%] 








从 上 面 的 截图 中 会 发 现 三 个 有 趣 的 区 域 。 


a 可 排序 列表 ， 里 面包 含 了 cProfile 输 出 的 所 有 数据 。 

口 函数 详细 信息 区 域 ,里 面包 含 了 调用 函数 ( Callers )、 被 调用 函数 ( Callees ) 和 源 代码 ( Source 
Code ) 等 标签 。 

口 方块 图 区 域 ， 用 图 形 显示 运行 的 函数 调用 关系 树 。 











l 这 个 GUI 工具 的 优点 之 一 是 ， 当 你 点 击 左边 列表 中 的 函数 时 ， 右 边 的 方块 就 
CAN 
一。 会 高 亮 显示 。 如 果 你 点 击 右边 的 方块 ， 左 边 的 列表 中 对 应 的 函数 也 会 高 亮 显示 。 


3.2.3 性 能 分 析 示 例 : 最 小 公 倍数 
让 我 们 用 一 个 简单 的 小 函数 来 演示 这 个 GUI 工具 的 用 法 。 


我 们 用 的 例子 是 寻找 两 个 正 整数 的 最 小 公 人 倍数。 虽然 这 是 一 个 非常 基础 的 函数 , 在 网 上 很 容 
易 找 到 ， 但 是 用 它 来 体验 这 个 GUI 工具 十 分 恰当 。 


代码 如 下 所 示 : 





def lowest_common_multiplier(argl, arg2): 
i = max(argl, arg2) 
while i < (argl * arg2): 
if i $ min(argl, arg2) == 0: 
return i 
i += max(argl, arg2) 
return(argl * arg2) 
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print lowest_common_multiplier (41391237, 2830338) 


我 相信 你 看 过 代码 之 后 已 经 发 现 了 需要 优化 的 地 方 , 不 过 请 让 我 用 可 视 化 工具 来 演示 。 我 们 
首先 分 析 这 段 代 码 的 性 能 ， 然 后 把 结果 加 载 到 RunSnakeRun 里 面 。 


用 下 面 的 命令 就 可 以 加 载 : 


$ python -m cProfile -o lcm.prof lcm.py 
再 用 这 行 命令 启动 RunSnakeRun: 


$ runsnake lcm.prof 





Yeh EE th fy $ 
这 就 是 我 们 的 结 
Name Calls RCalls Local /call Cum {call File Line 
o 2 000000 00000 06214 03157 * M. 【lowest common multipliereelem py-2 [0.6215] 
«module» 1 1 9.00005 0.00005 9.62114 0.62114 lem.py 
lowest c. 1 1 0.39251 0.39251 0.62109 — 0.62109 


|emax» 943446 943446 0.11534 0.00000 0.11534 0000000 -~ 
emin» 943446 943446 0.11323 0.00000 0.11323 0.00000 - 
lcmethod.. 1 1 0.00000 0.00000 0.00000 0.00000 - 


De ein 





Callees AllCallees Callers AllCallers Source Code 

Name Calls Realls Local [Call Cum [Cali File 
«max» — 943446 — 943446 — 0.11534 — 0.00000 (0.11534 0.00000 -~ 
«min» 943446 943446 0.11323 0.00000 0.11323 0.00000 = 





| method ‘disable’ of Isprof.Profiler' objects»@-:0 [0.0005] 


有 一 件 事情 我 们 之 前 没有 提 到 , 其 实 是 给 方块 图 锦上添花 , 即 在 方块 的 名 称 旁 边 可 以 显示 函 
数 运行 的 具体 时 间 。 


因此 ， 观 察 上 图 我 们 会 发 现 一 些 问 题 。 


a 我 们 看 到 在 函数 运行 的 总 时 间 一 一 0.621 秒 里 , max 和 min 一 共 只 消耗 了 0.228 秒 。 因 此 , 可 
以 认为 函数 消耗 了 比 简单 的 nax 和 min 函 数 更 多 的 时 间 。 

a 我 们 还 发 现 max 和 min 调 用 了 943 446 次 。 无 论 函 数 查询 时 间 多 么 短 ， 调 用 100 万 次 也 会 是 
很 长 的 时 间 。 


让 我 们 修改 一 下 代码 ， 再 用 蛇 之 眼 (eyes of the snake”) GA: 














QQ 作者 指 的 是 可 视 化 工具 RunSnakeRun。 译 者 注 
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def lowest_common_multiplier(argl, arg2): 

i = max(argl, arg2) 
_max = i 
_min = min(argl,arg2) 
while i < (argl * arg2): 

it 4X Sm se 

return i 

i += max 

return(argl * arg2) 


print lowest common multiplier(41391237, 2830338) 


我 们 将 看 到 类 似 下 面 截图 的 结果 : 





lowest_common_multipier@lcm_py11[o.115s] 





Callees Allcallees Callers Allcallers Source Code 


Name Calls RCalls Local {Call Cum /call File Line Directory 
«ma: 1 1 0.00000 — 0.00000 00000 — 0.00000 0 
«min» 1 1 0.00000 — 0.00000 0.00000 (00000 - 0 





[lowest common multiplier@lem.py.11 [0.1155] _ 
现在 ，max 和 和 min 都 没有 出 现在 方块 图 上 ， 因 为 我 们 只 调用 了 它们 一 次 ， 函 数 也 从 0.6 秒 降 到 
了 0.1 秒 。 这 就 是 去 掉 多 余 函 数 查 询 的 效果 。 


下 面 再 让 我 们 看 看 另 一 个 更 复杂 ， 也 更 有 趣 的 函数 ， 或 待 性 能 优化 。 








3.2.4 性 能 分 析 示 例 : 用 倒 排 索引 查询 

在 前 一 章 中 , 我 们 已 经 从 不 同 的 角度 分 析 了 倒 排 索引 的 代码 。 由 于 我 们 通过 不 同 的 视角 并 使 
用 不 同 的 方法 分 析 过 它 ， 所 以 代码 性 能 已 经 很 好 了 。 所 以 ， 如 果 我 们 再 用 RunSnakeRun 分 析 一 遍 
没什么 意义 ， 因 为 这 个 工具 和 之 前 的 工具 (KCacheGrind ) 差不多 。 

因此 ,我们 将 使 用 倒 排 索引 生成 的 索引 结果 ,自己 编写 一 个 使 用 该 索引 结果 的 搜索 脚本 。 我 
们 将 要 分 析 的 函数 很 简单 ， 它 只 查询 索引 中 的 一 个 单词 。 具 体 的 方法 也 很 简单 。 
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(1) 把 索引 结果 加 载 到 内 存 。 
(2) 搜索 单词 并 抓 取 索 引信 息 。 




















(3) 解析 索引 信息 。 

(4) 对 每 个 索引 信息 ， 查 询 相 关 的 文件 ， 然 后 把 包含 单词 的 句子 提取 出 来 。 
(5) 打印 结果 。 

下 面 是 代码 的 初始 版 本 : 


import re 
import sys 


# 把 倒 排 索引 中 的 项 目 转换 成 词典 对 象 ， 
# 以 单词 为 索引 键 
def list2dict(1): 
retDict = {} 
for item in 1: 
lineParts = item.split(',(') 
word = lineParts.pop[0] 





data = ','.join(lineParts) 
indexDataParts = re.findall('\(([a-zA-Z0-9\./, ]{2,})\)', data) 
retDict [word] = indexDataParts 


return retDict 


# 把 索引 的 内 容 加 入 内 存 进 行 分 析 
def loadIndex(): 


indexFilename = "./index-file.txt" 
with open(indexFilename, 'r') as fh: 
indexLines = [] 


for line in fh: 
indexLines.append (line) 
index = list2dict (indexLines) 


return index 


# 读 取 文件 内 容 ， 单 词 使 用 UTF-8 编 码 格 式 ， 
E 移 除 不 需要 的 单词 (不 希望 出 现在 索引 中 的 单词 ) 
def readFileContent (filepath): 
with open(filepath, 'r') as f: 
return [x.replace(",", "").replace(".", "").replace("\t", "").replace("\r", 
""porepldcet('t|", tty stript? ") for x in 
f.read() .decode("utf-8-sig") .encode("utf-8").split('\n')] 


def findMatch(results): 
matches = [] 
for r in results: 
parts = r.split(',') 
filepath = parts.pop[0] 
fileContent = ' '.join(readFileContent (filepath) ) 
for offset in parts: 
ioffset = int (offset) 
if ioffset > 0: 


70 第 3 章 可视化 一 一 利用 GUI 理解 性 能 分 析 数 据 





ioffset -= 1 
matchLine = fileContent[ioffset:(ioffset + 100)] 
matches.append (matchLine) 
return matches 


# 在 索引 文件 中 搜索 单词 
def searchWord(w): 
index - None 
index loadIndex() 
result = index.get (w) 
if result: 
return findMatch(result) 
else: 
return [] 


# 让 用 户 自 定义 单词 …… 
searchKey = sys.argv[1] if len(sys.argv) > 1 else None 


if searchKey is None: # 如 果 没 有 搜 到 ， 就 打印 一 条 信息 
print "Usage: python search.py «search word>" 
else: # 如 果 单 词 存在 ， 则 进行 搜索 
results = searchWord(searchKey) 
if not results: 
print "No results found for '$s'" % (searchKey) 
else: 
for r in results: 
print r 


用 下 面 的 命令 运行 代码 : 
$ python -m cProfile -o search.prof search.py John 


FEAT RAS AT AP RATS RRITE files FREE Zee 2645 )。 

















fernandodoglio@glb-10841:~/workspace/writing/python$ python -m cProfile -o search.prof search.py John 
Burroughs her deepest debt is due To this clear-visioned prophet who has opened the blind eyes 
Burroughs All the familiar woodpeckers have two characteristics most prominently exemplified i 
Burroughs who calls this bird "the wild Irishman of the flycatchers" OLIVE-SIDED FLYCATCHER 
Burroughs calls it "It is not a proud gorgeous strain like the tanager's or the grosbeak's" he 
Burroughs has called the bird the ''bush sparrow" FOX SPARROW (Passerella ilica) Finch family 
Burroughs "It begins with the words fe-u fe-u fe-u and runs off into trills and quavers like th 
Burroughs in ever-delightful "Wake Robin"; "but no he is doomed to wear the name of some discov 
Burroughs calls him of all our birds "the most native and democratic" How the robin dominates 
Burroughs is like scarlet “strong intense emphatic" but it is sweet and is more rapidly uttered 
Friese for making the drawings; and to the following for the use of the originals of the illust 
Burroughs This eBook is for the use of anyone anywhere at no cost and with almost no restricti 
Burroughs Commentator: Mary E Burt Posting Date: January 17 2009 [EBook #3163] Release Date: 
Burroughs With An Introduction By Mary E Burt And A Biographical Sketch CONTENTS Biogr 
Burroughs's birth A little before the day when the wake-robin shows itself that the observer mi 
Burroughs His books are redolent of the soil and have such "freshness and primal sweetness" tha 
Burroughs's essays I at once foresaw many a ramble with my pupils through the enchanted country 
Burroughs is to live in the woods and fields and to associate intimately with all their little 
Burroughs's essays is much healthier than the over-wrought dramatic action which sets all the n 
Burroughs more than almost any other writer of the time has a prevailing taste for simple words 
Burroughs MARY E BURT JONES SCHOOL CHICAGO Sept 1 1887 BIRDS BIRD ENEMIES How sure 
the Baptist during his sojourn in the wilderness his divinity school-days in the mountains and 
Burroughs *** END OF THIS PROJECT GUTENBERG EBOOK BIRDS AND BEES *** This file should b 


输出 结果 可 以 通过 高 亮 关 键 词 , 或 者 显示 更 多 的 上 下 文 来 改进 。 不 过 我 们 把 重点 放 到 运行 时 
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间 的 分 析 上 。 
下 面 我 们 看 看 在 RunSnakeRun 打 开 search.prof 文 件 时 显示 的 效果 : 














Name Calls RCalls Local {Call 

«method... 3 3 0.03042 0.01014 

loadindex 1 1 0.02590 0.02590 

list2dict — 1 1 0.02264 0.02264 

lemethod... 16014 16014 0.02052 0.00000 

readFile.. 3 3 0.01888 0.00629 

lemetho... 16021 16021 0.01717 — 0.00000 

|«metho.. 76616 76616 0.01451 0.00000 

lk impo.. 1 1 0.012604 — 0.01264 

| compile 16014 16014 0.01262 — 0.00000 

Findall 16014 16014 0.00932 0.00000 

metho 16018 16018 0.00559 — 0.00000 

module» 1 1 0.00492 0.00492 

|«metho.. 16024 16024 0.00343 0.00000 

< codec... 3 3 0.00322 0.00107 

lemetho... 15323 15323 0.00233 0.00000 

metho... 3 3 0.00164 0.00055 

|«metho.. 16090 16090 9.00118 0.00000 

«method... 3 3 0.00071 — 0.00024 

Isearchw... 1 1 0.00049 0,00049 

«method... 3 3 0.00047 0.00016 

findmatch 1 1 0.00040 — 0.00040 

«open 7 ? 0.00037 — 0.00005 

j«module» 1 1 9.00009 — 0.00009 — 0.00002 Callees | AllCallees Callers allcallers source code 

parse — 1 2 0.00007 0.00003 0.00014 

de» 5 3 0.00006 000002 — 0.00328 Name Calls Reals Local /Ca cum /Call File Line Directory 

«metho... 3 3 0.00004 — 0.0000! — 0.01613 

| optimiz. 1 1 0.00003 0.00003 0.00007 

| mk bit. 1 1 0.00003 0.00003 0.00003 
000001 nnoon1 001?81 

UH 





和 前 面 的 最 小 公 倍 数 的 示例 相 比 ,图 中 多 了 很 多 方块 。 然 而 ,我 们 可 以 看 看 一 眼 能 捕获 哪些 


信息 。 


两 个 最 耗 时 的 函数 是 lo0adIndex 和 1ist2dict， 紧 随 其 后 的 是 readFilecontent 子 数 。 我 
们 可 以 在 左边 列表 中 看 到 这 些 。 


口 这 些 函 数 的 大 部 分 时 间 都 消耗 在 调用 的 其 他 函数 上 了 。 因 此 ， 它 们 的 总 消耗 时 间 很 高 ， 
但 是 内 部 运行 时 间 较 低 。 
O 如 果 按 照 内 部 运行 时 间 对 列表 排序 ， 我 们 会 看 到 排 在 最 前 面 的 5 个 函数 是 : 


n 读 取 文件 对 象 的 read 方 法 

m loadIndexPKZX 

m list2dict PKŠ 

m 正则 表达 式 对 象 的 findAl1 方 法 


m readFileContent PRM 


RIEA A loadIndex Kt. BAKARA EAEE T 1isc2aiccPAZR b, ERNI 
有 一 个 小 优化 可 以 做 ， 即 可 以 简化 代码 以 明显 地 降低 代码 的 内 部 运行 时 间 : 


def loadIndex(): 
indexFilename - "./index-file.txt" 
with open(indexFilename, 'r') as fh: 
# 我 们 不 用 循环 遍历 每 一 行 加 入 数组 ， 
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# 而 是 通过 readlines 按 行 读 取 文件 内 容 
indexLines = fh.readlines() 
index = list2dict (indexLines) 
return index 


一 点 简单 的 改变 就 可 以 把 内 部 运行 时 间 从 0.03 秒 降 到 了 0.00002 秒 。 虽 然 它 不 是 一 个 大 瓶颈 ， 
但 是 我 们 在 优化 性 能 的 同时 也 改善 了 代码 的 可 读 性 ， 可 谓 一 举 两 得 。 


经 过 前 面 的 分 析 我 们 知道 函数 消耗 的 时 间 大 都 花 在 了 被 调用 的 其 他 函数 上 了 。 所 以 函数 的 内 
部 执行 时 间 我 们 已 经 优化 得 差不多 了 ， 下 面 把 精力 集中 到 下 一 个 函数 上 : list2dict. 


但 是 在 此 之 前 ， 让 我 们 先 看 看 经 过 前 面 的 小 改进 之 后 ， 性 能 的 变化 情况 : 








Local {call Cum 
0.02360 0.0844 
16014 9.02127 0.0212 
16021 0.01746 0.0174, 
3 6.01565 0.0377, 
T6014 0.01313 0.0172 
T6616 0.01232 0.0123: 
16014 0.00978 i 0.04821 
0.0071 
0.00371 
0.1392 
0.00; 
0.00212 
0.00196 
0.00159 


Loadindex PACE NOTH EER M 


16018 0.00716 
16024 9.00370 
1 0.00366 
3 6.00308 
15323 0.00212 
1 6.00156 
3 0.00159 


loadindex Al BLA TÉ . 
局 部 消耗 时 间 表 和 


000 





9.00008 calees | AllCallees Callers AliCallers Source Code 

0.00004 

0.00410 Name Calls RCalls. Local {Call cum {Call File Line Directory 
000005 Findall 16014 16014 0.00978 — 0.00000 0.04826 0.00000 repy 165 fuse/libj... 
0.00003 Metho.. 16021 16021 0.01746 0.00000 0.01746 0.0000 - 0 

0.00012 «metha. 16012 16018 0.00716 0.00000 0.00716 0.00000 一 o 


n nonno? n. nnno? e n0on93 





[Inadindexel earchz.py:18 [0.0965] 


现在 , 让 我 们 转移 到 1ist2aict 函 数 上 。 这 个 函数 的 主要 作用 是 把 索引 文件 的 每 一 行 解析 成 
可 以 使 用 的 形式 。 更 具体 地 说 , 就 是 它 会 把 索引 文件 中 的 每 一 行 解析 成 一 个 以 单词 为 键 的 哈 希 表 
《或 Python 字典 ), 使 得 我 们 搜索 单词 时 , 查询 时 间 复 杂 度 平均 可 以 达到 O(D) (如果 不 记得 这 些 了 ， 
请 查阅 第 1 章 )。 字 典 的 值 是 实际 文件 的 路 径 ， 以 及 文件 中 单词 所 在 位 置 的 坐标 。 


经 过 分 析 , 我 们 发 现 函 数 内 部 消耗 的 时 间 绝 大 多 数 都 消耗 在 正则 表达 式 上 面 。 正 则 表达 式 是 
非常 给 力 的 工具 , 但 是 有 时 候 我 们 可 以 用 split 和 replace 方 法 替换 。 所 以 ,让 我 们 看 看 在 不 使 
用 正则 表达 式 的 情况 下 ， 如 何 解析 数据 并 获取 同样 的 结果 ， 而 且 消耗 的 时 间 更 少 : 


def list2dict(1): 
retDict = {} 
for item in 1: 
lineParts = item.split(',(') 
word = lineParts[0] 
indexDataParts = [x.replace(")","") for x in lineParts[1:] 
retDict [word] = indexDataParts 
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return retDict 


代码 看 起 来 更 简洁 了 。 代码 里 没有 正则 表达 式 ( 有 时 候 这 么 做 可 以 让 代码 更 易 读 ， 因 为 并 非 
每 个 人 都 能 看 懂 正 则 表达 式 ) 代码 的 行 数 更 少 了 。 我 们 去 掉 了 join 行 , 也 去 掉 了 丑陋 累 缆 的 ael 
行 代码 。 





但 是 ,我 们 增加 了 一 行列 表 综 合 代 码 , 这 行 代码 是 对 列表 中 的 每 个 元 素 都 应 用 replace 方 法 。 
现在 让 我 们 再 看 看 下 面 的 性 能 分 析 图 : 





Name Calls RCalls. Local [Call 


|«metho. 98377 98377 0.01718 0.00000 





readFile.. 3 3 0.01501 0.00500 
«metho.. 16021 16021 0.00719 0.00000 
odec. 3 3 0.0038 — 0.00106 
module» 1 1 0.00303 0.00303 
method... 1 1 0.00177 0.00177 
metho... 15323 15323 0.00175 — 0.00000 
«metho.. 3 3 0.00148 — 0.00049 
impo.. 1 1 0.00082 — 0.00082 
metho.. 4 4 0.00048 — 0.00012 
searchw... 1 1 0.00047 0.00047 
findMatch 1 1 0.00032 — 0.00032 
method... 3 3 0.00031 0.00010 
«module» 1 1 0.00007 — 0.00007 
open» 4 4 0.00007 0.00002 
decode 3 1 0.00005 — 0.00002 
«metho.. 3 3 0.00003 — 0.00001 
search f... 1 1 0.00002 0.00002 
loadindex 1 1 0.0000! — 0.00007 
E N 1 0.00001 0.00001 
inormaliz.. 1 1 0.00001 0.00001 
metho... 22 22 9.0000! 0.00000 0.00001 Callees | AllCallees Callers allcallers Source Code 
n 1 1 0.00000 0.00000 0.00002 
inta. 2 2 0.00000 — 0.00000 0.00000 Name Calls RCalls. Local /calt cum /calt File Line Directory 
Saia a j 0.00000 0.00000 0.00090 “Metho... 98377 98377 0.01718 0.00000 0.01718 (00000 ~ 0 
or 1 6.00000 0.00000 0.000004 €tho-. 16021 16021 0.00719 0.00000 0.00719 0.00000  - o 
«bulltin... 1 1 0.00000 — 0.00000 0.00000 
00000 n.oooon ooon 





| 
list2dict@search-3.py-6 [0.0315] 


这 次 变化 很 明显 ,如 果 你 对 比 之 前 的 两 个 截图 ,会 发 现 1ist2gict 函 数 从 左边 转移 到 了 右边 ， 
这 说 明 1ist2gict 隐 数 的 运行 时 间 比 readFileContent 隐 数 要 少 。 子 数 的 内 部 结构 也 变 得 更 简 
单 ， 现 在 函数 里 只 有 split 和 replace 哺 数 。 最 后 ， 让 我 们 看 看 时 间 数 据 。 


O 局 部 运行 时 间 从 0.024 秒 降 到 了 0.019 秒 。 显 然 局 部 时 间 并 没有 降低 很 多 ， 因 为 我 们 在 代码 
内 部 做 了 很 多 事情 。 时 间 降 低 主要 是 由 于 去 掉 了 del 行 和 join 行 。 

O 总 运行 时 间 的 下 降 比较 显著 ， 从 0.094 秒 下 降 到 了 0.031 秒 ， 这 是 不 使 用 复杂 函数 ( 正则 表 
达 式 ) 的 结果 。 


我 们 把 总 运行 时 间 降 到 了 原来 的 3。 因此， 这 个 函数 的 优化 效果 很 好 ， 尤 其 是 当 索 引 字典 
很 大 时 ， 节 省 的 时 间 会 更 多 。 








最 后 一 个 假设 并 非 总 是 正确 的 , 具体 取决 于 所 用 算法 的 类 型 。 但 是 ,在 示例 
- 中 ， 我 们 遍历 了 索引 文件 的 每 一 行 ， 所 以 可 以 放心 地 做 出 这 样 的 假设 。 


证 我 们 简单 对 比 一 下 原始 代码 和 最 后 一 次 优化 后 代码 的 性 能 ， 看 看 程序 总 运行 时 间 的 改善 
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情况 : 











Name Calls RCalls Local Call Cum 
0 2 0.00000 — 0.00000 0.20999 
«module» 1 1 0.00492 0.00492 0.20999 
searchword 1 1 0.00049 ^ 0.00049 0.20507 
loadindex 原始 代码 的 运行 时 间 0.02590 0.02590 0.11665 

ame à RCA Qca à 
«module» 1 1 0.00303 0.00303 0.07234 
searchw... 1 1 0.00047 0.00047 0.06931 
findMatch 1 ”优化 后 代码 0.00032 — 0.00032 0.03644 
的 运行 时 间 








E, 


最 后 ， 你 会 发 现 ， 程 序 的 总 








总 运行 时 间 从 大 约 0.2 秒 降 到 了 0.072 秒 。 


下 面 是 代码 的 最 终 版 本 ， 所 有 的 优化 都 放 在 里 面 了 : 


import sys 


# 把 索引 文件 中 的 项 目 转变 成 词典 ， 
# 以 单词 为 索引 
def list2dict (1): 
retDict = {} 
for item in 1: 
lineParts = item.split(',(') 
word = lineParts[0] 
indexDataParts = [x.replace(")", 
retDict [word] = indexDataParts 
return retDict 


# 把 索引 内 容 加 入 内 存 并 解析 
def loadIndex(): 
indexFilename - "./index-file.txt" 
with open(indexFilename, 'r') as fh: 
# 我 们 不 用 循环 遍历 每 一 行 以 如 入 数组 ， 
# 而 是 通过 readlines 按 行 读 取 文 件 内 容 
indexLines = fh.readlines() 
index = list2dict (indexLines) 
return index 





E 读 取 文件 内 容 ， 单 词 使 用 UTF-8 编 码 格 式 ， 
E 移 除 不 需要 的 单词 (不 希望 出 现在 索引 中 的 单词 ) 
def readFileContent (filepath): 


P) 


for x in lineParts[1:]] 


with open(filepath, 'r') as f: 
return [x.replace(",", "*"),replace("*.",""). 
replace("\t","").replace("\r","").replace("|","").strip(" ") for x in 


f.read().decode("utf-8-sig").encode("utf-8").split( 


def findMatch(results): 
matches - [] 
for r in results: 
parts =F splat (n i 


"\n! 


)] 
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filepath parts[0] 
del parts[0] 
fileContent 
for offset in parts: 
ioffset int (offset) 
if ioffset > 0: 
ioffset -- 
matchLine 


1 


'.join(readFileContent(filepath)) 


fileContent[ioffset:(ioffset + 100)] 


matches.append (matchLine) 


return matches 


# 在 索引 文件 中 搜索 单词 


def searchWord(w): 


index - None 
index - loadIndex() 
result = index.get (w) 


if result: 
return findMatch (result) 

else: 
return 


[] 
# 让 用 户 自 定义 单词 …… 
searchKey sys.argv[1] 


if len(sys 


if searchKey is None: 
print "Usage: python search.py 


else: 4 如 果 单 词 存在 ， 则 进行 搜索 
results = searchWord(searchKey 
if not results: 
print "No results found fo 
else: 
for r in results: 
print r 
3.3 ”小结 


综 上 所 述 ， 我 们 在 这 一 章 介绍 了 两 个 


变 


cProfile 之 类 的 性 能 分 析 需 生成 的 结 
了 一 些 新 代码 。 


从 下 一 章 开 始 , 我 们 将 介绍 更 具体 的 人 


总 结 





.argv) > 1 else None 


# 如 果 没 有 搜 到 ， 就 打印 一 条 信息 


<search word>" 


) 


19 


Sgt" 2 


rÍ $ (searchKey) 


最 流行 也 是 Python 开发 者 最 党 用 的 可 视 化 工具 ,将 
得 直观 易 懂 。 我 们 用 新 的 工具 分 析 了 旧 代码 ， 也 分 析 





能 优化 手段 。 我 们 将 介绍 一 些 在 分 析 和 优化 代码 性 能 





时 





IAH 


的 实践 经 验 ， 以 及 值得 推荐 给 读者 的 好 习惯 。 
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Python 的 性 能 分 析 之 路 已 经 扬帆 起 航 。 运 行 性 能 分 析 程 序 只 能 发 现 问题 ,不 能 解决 问题 。 在 前 
几 章 学 习性 能 分 析 带 时 ， 我们 看 过 了 一 些 示 例 ， 也 做 过 了 一 些 优化 ,但 是 都 没有 进行 详细 的 解释 。 


这 一 章 将 详细 介绍 优化 的 过 程 。 为 此 ， 我 们 得 从 基础 知识 开始 讲 起 。 我 们 将 结合 Python 语 言 
自身 的 特点 去 分 析 : 这 一 章 没有 辅助 工具 ， 只 有 Python 语 言 和 正确 使 用 Python 的 方法 。 


本 章 主题 如 下 : 


口 函数 返回 值 缓存 /函数 查询 表 
口 默认 参数 的 用 法 

O 列表 综合 表达 式 

口 生成 器 

DQ ctypes 

口 字符 串 连 接 

O 其 他 Python 优化 技巧 
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函数 返回 值 缓存 ( memoization ) /函数 查询 表 (lookup table ) 是 优化 一 段 代 码 (一 个 函数 ) 
最 常用 的 手段 。 我 们 可 以 先 把 函数 、 输 入 参数 和 返回 值 全 部 都 保存 起 来 , 在 函数 下 次 被 调用 时 直 
接 使 用 存储 的 结果 ( 不 需要 重新 计算 所 有 数据 )。 因 为 这 是 一 种 函数 返回 值 缓存 技术 ， 所 以 可 能 
容易 与 缓存 (caching) 混淆 ， 尽 管 这 个 术语 也 用 于 其 他 优化 技术 C 比如 HTTP caching, buffering 
等 )。 

其 实 这 个 方法 非常 强大 , 因为 如 果 能 正确 地 实现 缓存 , 就 可 以 把 一 个 非常 耗 时 的 函数 调用 变 
成 0(1) 时 间 复 杂 度 (关于 时 间 复 杂 度 的 更 多 信息 ,请 参考 第 1 章 )。 把 输入 参数 放 人 字典 ， 作 为 不 
重复 的 键 , 可 以 在 字典 中 保存 函数 结果 , 也 可 以 在 函数 结果 已 经 被 保存 之 后 通过 字典 的 键 查询 直 
接 获 取 。 
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当然 , 这 种 技术 也 是 有 代价 的 。 如 果 我 们 要 记 住 被 缓存 函数 的 所 有 信息 ,就 需要 拿 内 存 空间 
换 运行 时 间 。 如 果 函 数 需要 的 存储 空间 不 超过 系统 内 存 容量 ， 那 么 这 个 代价 还 是 非常 值得 的 。 














这 种 优化 方法 的 典型 使 用 情形 是 在 处 理 固定 参数 的 函数 被 重复 调用 时 。 这 样 做 可 以 确保 每 次 
函数 被 调用 时 ， 直 接 返 回 缓存 结果 。 如 果 函 数 被 调用 很 多 次 , 但 是 参数 是 随机 变化 的 ,那么 我 们 
存储 函数 就 没什么 效果 了 。 对 比 效果 如 下 图 所 示 。 

















HESH, CRT 
下 固定 参数 ， 未 缓存 
随机 参数 ， 已 缓存 
目 随机 参数 ， 未 缓存 




















时 间 ( 秒 ) 





























你 会 发 现 最 左 侧 的 条 形 〈 固定 参数 , 已 缓存 ) 显然 是 运行 速度 最 快 的 ， 而 其 他 三 个 条 形 的 运 
行 速度 差不多 。 


产生 上 图 结果 的 代码 如 下 所 示 。 为 了 获得 函数 的 消耗 时 间 ， 代 码 会 在 不 同 条 件 下 调用 
twoParams 和 twoParamsMemoized 函 数 几 百 次 ， 然 后 把 消耗 时 间 写 到 日 志 里 : 














import math 
import time 
import random 


class Memoized: 
def __init__(self, fn): 
self.fn = fn 
self.results = {} 


def | call (self, *args): 
key - ''.join(map(str, args[0])) 
try: 
return self.results[key] 
except KeyError: 
self.results[key] - self.fn(*args) 
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return self.results[key] 


GMemoized 
def twoParamsMemoized(values, period): 
totalSum = 0 
for x in range(0, 100): 
for v in values: 
totalSum = math.pow((math.sqrt(v) * period), 4) + totalSum 
return totalSum 


def twoParams(values, period): 
totalSum = 0 
for x in range(0, 100): 
for v in values: 
totalSum = math.pow((math.sqrt(v) * period), 4) + totalSum 
return totalSum 


def performTest(): 
valuesList - [] 
for i in range(0, 10): 
valuesList.append(random.sample(xrange(1, 101), 10)) 


start time - time.clock() 
for x in range(0, 10): 
for values in valuesList: 
twoParamsMemoized(values, random.random()) 
end time - time.clock() - start time 


9. 


print "Fixed params, memoized: $s" $ (end time) 


start time - time.clock() 
for x in range(0, 10): 
for values in valuesList: 
twoParams(values, random.random()) 
end time - time.clock() - start time 
print "Fixed params, without memoizing: %s" % (end time) 





start time - time.clock() 
for x in range(0, 10): 
for values in valuesList: 
twoParamsMemoized(random.sample(xrange(1,2000), 10), random.random()) 
end time - time.clock() - start time 


9. 


print "Random params, memoized: $s" % (end time) 


start time - time.clock() 
for x in range(0, 10): 
for values in valuesList: 
twoParams (random.sample(xrange(1,2000), 10), random.random()) 
end time - time.clock() - start time 
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print "Random params, without memoizing: %s" $ (end time) 


performTest() 


一 种 算法 是 解决 所 有 问题 的 银 弹 "。 虽 然 函 数 返 回 值 缓存 方法 是 优化 代码 的 基础 


从 前 面 的 图 形 中 可 以 获得 的 主要 结论 是 ， 和 编程 技术 不 同 的 侧面 一 样 , 没有 
手段 ， 但 是 显然 它 并 不 能 优化 所 有 条 件 下 的 代码 。 








对 于 代码 本 身 , 其 实 没什么 内 容 。 这 是 一 个 非常 简单 也 不 太 实际 的 代码 示例 。performTest 
函数 会 把 每 个 测试 都 运行 10 次 ， 然后 记录 每 次 运行 的 时 间 。 你 会 发 现 我 们 在 这 里 没 用 性 能 分 析 器 ， 
仅仅 是 用 简单 且 临 时 性 的 做 法 记录 了 函数 运行 时 间 ， 这 就 可 以 满足 我 们 的 需求 。 


为 了 实现 缓存 的 目的 ， 两 个 函数 在 运行 数学 函数 时 简单 地 用 一 组 数字 作为 输入 参数 。 


关于 输入 参数 的 另 一 个 有 趣 的 事情 是 , 由 于 函数 的 第 一 个 参数 是 一 个 数字 列表 , 所 以 我 们 不 
能 把 它 作为 Memoizeq 类 results 字 和 典 的 args 键 =。 于 是 我 们 用 了 下 面 这 行 代码 处 理 输入 : 















































zi 


























key - ''.join(map(str, args[0])) 


这 行 代 码 会 把 输入 的 列表 连 成 一 个 字符 串 ， 作 为 字典 的 键 。 这 里 没有 使 用 第 二 个 参数 ， 因 为 
它 是 随机 产生 的 ， 也 就 是 说 键 永远 不 会 重复 。 


上 面 这 种 函数 返回 值 缓存 方法 的 另 一 种 版 本 是 ,在 函数 初始 化 阶段 预先 计算 所 有 的 值 ( 当然 ， 
假设 我 们 的 输入 是 有 限 的 )， 然 后 在 执行 时 调用 查询 表 。 可 以 这 么 做 的 前 提 条 件 是 : 


O 输入 值 必须 是 有 限 的 ， 和 否则 无 法 预先 算出 所 有 值 ; 

O 查询 表 带 了 所 有 值 ， 必 须 满 足 内 存 限制 ; 

口 和 前 面 提 到 的 一 样 ， 输 入 值 至 少 要 使 用 一 次 ， 这 样 优化 才 有 意义 ， 也 值得 我 们 多 付出 一 
些 努 力 。 


构建 查询 表 的 方法 有 好 儿 种 ,针对 不 同 的 类 型 进行 优化 。 具体 选 择 哪 种 方法 ,是 根据 需要 进 
行 优化 的 问题 和 目标 的 类 型 决定 的 。 下 面 介绍 一 些 例子 。 

























































































4.1.1 用 列表 或 链表 做 查询 表 


这 种 方法 是 迭代 无 序列 表 , 里 面 的 每 个 元 素 对 应 字典 的 键 , 与 要 查找 的 函数 结果 对 应 。 这 显 
然 是 一 种 效率 低下 的 方法 ， 因 为 根据 大 0 标记 法 ， 和 迭代 列表 的 算法 的 平均 与 最 坏 情 况 下 的 时 间 复 












































(QD 参考 《人 月 神话 放 一 一 译 者 注 
© Python 中 的 列表 是 可 变 类 型 ， 不 能 作为 字典 的 键 。 一 一 译 者 注 
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杂 度 都 是 O(n)。 如 果 条 件 合适 ,这么 做 可 以 比 每 次 调用 函数 运行 结果 更 快 一 些 。 


在 这 种 情况 下 ,用 链表 可 以 实现 比 普通 列表 更 高 的 性 能 。 但 是 , 链表 的 类 型 
(双向 链表 ， 允 许 直接 链接 首尾 元 素 的 单 向 链表 ) 也 会 对 性 能 产生 显著 的 影响 。 


4.1.2 ”用 字典 做 查询 表 


这 个 方法 是 用 一 维 字典 进行 查询 , 被 索引 的 每 个 键 都 是 输入 条 件 的 组 合 ( 足以 组 成 一 个 唯一 
的 键 ) 在 某 些 情况 下 〈 像 上 面 介 绍 的 例子 那样 )， 这 种 查询 方式 可 能 是 最 快 的 ， 甚 至 比 二 分 查找 
都 要 快 (按照 大 O 标 记 法 ， 这 种 数据 结构 查找 算法 的 时 间 复 杂 度 是 O(1) )。 














需要 注意 的 是 ， 只 要 每 次 都 能 够 生成 不 重复 的 键 , 这 个 算法 就 是 有 效 的 。 但 
一 是 ， 随 着 字典 规模 增 大 ( 哈 希 )， 碰 撞 频 繁 ， 性 能 会 下 降 。 


4.1.3 ”二 分 查找 


这 种 方法 只 在 列表 是 有 序 的 前 提 下 才 可 以 使 用 。 在 值 已 经 被 排序 的 情况 下 , 这 种 方法 可 以 作 
为 一 种 选择 。 但 是 ,排序 是 需要 消耗 时 间 的 ， 因 此 会 影响 整体 性 能 。 然 而 ， 二 分 查找 即使 是 处 理 
很 长 的 列表 ， 效 率 也 很 高 〈 按 照 大 0 标记 法 ， 最 差 情 况 下 的 时 间 复 杂 度 也 是 OUdogz) )。 算 法 通过 
重复 地 判断 被 查询 的 值 在 列表 中 的 哪 一 半 ， 查 找 目 标 值 或 者 确定 值 不 在 列表 中 。 


综合 上 面 介绍 的 内 容 , 看 看 前 面 介 绍 过 的 Memoized 函 数 , 会 发 现 我 们 是 用 字典 实现 查询 表 。 
但 是 ， 在 别 的 案例 中 ， 可 能 需要 用 其 他 算法 实现 。 







































































4.1.4 查询 表 使 用 案例 

查询 表 优化 的 基本 示例 很 多 , 但 是 最 常见 的 可 能 就 是 优化 三 角 函 数 。 按 照 计算 时 间 来 看 , 这 
类 函数 运行 得 非常 慢 。 在 重复 使 用 时 ， 这 些 函数 会 对 程序 性 能 造成 沉重 负担 。 

这 就 是 通常 建议 预先 计算 这 类 函数 值 的 原因 。 对 于 输入 参数 有 无 穷 可 能 的 函数 , 这 么 做 是 可 
行 的 。 因 此 , 开发 者 不 得 不 为 了 性 能 而 牺牲 计算 精度 ， 预 先 计 算 离 散 的 整数 值 输入 ( 就 是 从 浮 点 
数 到 整数 )。 

这 种 方法 在 某 些 既 要 求 高 性 能 又 需要 精度 的 环境 中 可 能 不 太 适 用 。 因 此 , 折 中 的 做 法 是 , 在 
预先 计算 的 结果 之 间 进 行 插值 计算 。 实 践 表 明 这 种 做 法 精度 更 高 。 即 使 这 样 做 时 的 性 能 无 法 同 直 
接 用 查询 表 时 相 比 ， 但 是 比 每 次 直接 调用 三 角 函 数 计算 结果 的 性 能 要 好 很 多 。 

让 我 们 来 看 一 些 例子 ， 例 如 下 面 的 三 角 函数 : 
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def complexTrigFunction(x): 
return math.sin(x) * math.cos(x) **2 


我 们 来 看 看 如 何 简 单 地 实现 无 需 绝 对 精确 的 预先 计算 方法 , 再 通过 捅 值 计算 获得 更 高 的 精度 。 


下 面 的 代码 将 计算 -1000 到 1000 范 围 内 ( 只 有 整数 ) 的 函数 值 ， 然 后 再 计算 一 些 浮 点 数 (只 
在 更 小 的 范围 进行 ) 的 函数 值 : 








import math 

import time 

from collections import defaultdict 
import itertools 


trig_lookup_table = defaultdict (lambda: 0) 


def drange(start, stop, step): 
assert (step !- 0) 
sample_count = math.fabs((stop - start) / step) 
return itertools.islice(itertools.count (start, step), sample_count) 


def complexTrigFunction(x): 
return math.sin(x) * math.cos(x) **2 





def lookUpTrig(x): 
return trig lookup table[int (x) ] 


for x in range(-1000, 1000): 
trig lookup table[x] - complexTrigFunction(x) 


trig results - [] 
lookup results - [] 


init time - time.clock() 
for x in drange(-100, 100, 0.1): 
trig results.append(complexTrigFunction(x)) 


9. 


print "Trig results: $s" $ (time.clock() - init time) 


init time - time.clock() 
for x in drange(-100, 100, 0.1): 
lookup results.append(lookUpTrig (x) ) 
print "Lookup results: %s" $ (time.clock() - init time) 
for idx in range(0, 200): 
print "%Ss\t%s" $ (trig results[idx], lookup results[idx]) 


上 面 代码 的 结果 将 演示 简单 查询 表 是 多 么 不 精确 ( 如 下 图 所 示 ),。 但 是 它 在 速度 上 获得 了 弥 
补 ， 原 始 函 数 的 运行 时 间 需 要 0.001526 秒 ， 而 使 用 这 个 简单 查询 表 只 需要 0.000717 秒 。 
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使 用 查询 存在 的 问题 
没有 线性 插值 


0.5 
04 
03 
02 
0.1 

0 

-0.17 

-02 

-03 

-0.4 


-0.5 


一 一 复杂 的 三 角 函 数 
一 一 用 查询 表 的 结果 






























从 上 图 可 以 看 出 ， 没 有 线性 插值 会 导致 精度 很 低 。 你 会 发 现 ， 即 使 两 个 图 形 看 起 来 很 相似 ， 
但 是 查询 表 和 直接 运行 Etzig 函 数 获得 的 精度 是 不 同 的 。 现 在 ， 让 我 们 再 看 看 这 个 问题 。 不 过 这 
一 次 我 们 增加 了 一 个 插值 计算 〈 我们 将 把 范围 限制 在 -PI 到 PI 之 间 )。 

import math 

import time 


from collections import defaultdict 
import itertools 









































trig_lookup_table = defaultdict (lambda: 0) 


def drange(start, stop, step): 
assert (step != 0) 
sample_count = math.fabs((stop - start) / step) 
return itertools.islice(itertools.count (start, step), sample_count) 


def complexTrigFunction (x): 
return math.sin(x) * math.cos(x) **2 


reverse indexes - () 
for x in range(-1000, 1000): 
trig lookup table[x] = complexTrigFunction(math.pi * x / 1000) 


complex results - [] 
lookup results - [] 


init time - time.clock() 
for x in drange(-10, 10, 0.1): 
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complex_results.append(complexTrigFunction (x) ) 
print "Complex trig function: %s" % (time.clock() - init_time) 


init_time = time.clock() 

factor = 1000 / math.pi 

for x in drange(-10 * factor, 10 * factor, 0.1 * factor): 
lookup results.append(trig lookup table[int(x)]) 

print "Lookup results: %s" $ (time.clock() - init time) 


for idx in range(0, len(lookup results)): 
print "%Ss\t%s" $ (complex results[idx], lookup results[idx]) 


从 上 图 中 你 应 该 已 经 注意 到 曲线 是 周期 性 的 〈 这 是 因为 我 们 把 范围 限制 在 -PI 到 PI 之 间 )。 
因此 我 们 将 重点 关注 图 形 中 的 一 部 分 数值 。 























上 面 脚本 运行 的 结果 也 说 明 捕 值 计算 的 方法 比 直接 用 三 角 函 数 计算 结果 更 快 , 虽然 比 最 初 的 
简单 查询 表 要 慢 一 点 。 





插值 函数 原始 函数 
0.000118» 0.000343 b 











下 图 和 上 一 张 图 有 些 不 同 ， 尤 其 是 因为 图 中 用 条 形 图 显示 了 插值 计算 与 真实 值 的 相对 误差。 a 















































函数 调用 与 查询 表 
线性 插值 与 误差 
14 
12 
10 — 
复杂 的 三 角 函 数 
8 se 用 查询 表 的 结果 
BiR% 
6 
4 
0 | AJ. || M, roe) 1 NEN 
2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 
-2.1.3.5 7.9 1113 15 17 19 21 23 25 27 29 31 33 35. 37 39 41 43 45 47 49 51 53 55 57 59 61 63 











最 大 的 误差 高 达 约 12% (图 中 顶点 所 示 )。 但 是 ， 这 发 生 在 很 小 的 数值 上 ， 比 如 
-0.000852248551417 与 -0.000798905501416。 因 此 这 里 的 误差 需要 根据 实际 数值 判断 计算 得 是 否 
合理 。 在 我 们 的 例子 中 ， 由 于 数值 本 身 非 常 小 ， 所 以 误差 其 实 可 以 忽略 不 计 了 。 











查询 表 还 有 其 他 应 用 场景 ， 比 如 图 像 处 理 。 但 是 ， 结 合 本 书 的 主题 ， 上 面 的 
一 ”例子 应 该 已 经 足以 体现 查询 表 优 化 的 优 缺点 了 。 
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4.2 使 用 默认 参数 


还 有 一 种 优化 技术 与 函数 缓存 技术 不 同 ,， 使 用 得 并 不 十 分 普遍 。 这 种 方法 是 直接 优化 Python 
解释 器 的 工作 方式 。 


默认 参数 (default argument ) 可 以 在 函数 创建 时 就 确定 输入 值 ， 而 不 用 在 运行 阶段 才 确 定 输 

















入。 
M 
Q 这 种 方法 只 能 用 于 在 运行 过 程 中 参数 不 发 生变 化 的 函数 和 对 象 。 


下 面 用 一 个 例子 来 演示 这 种 优化 手段 如 何 使 用 。 下 面 的 代码 里 包括 一 个 函数 的 两 种 版 本 , 它 
们 都 随机 计算 三 角 函数 : 


import math 


E 原始 函数 
def degree sin(deg): 
return math.sin(deg * math.pi / 180.0) 


E AY hk, NT XEXAAGGDUEHIÓEM, 

* 所 以 直接 用 math.sin 方 法 的 查询 值 即 可 

def degree_sin(deg, factor=math.pi/180.0, sin=math.sin): 
return sin(deg * factor) 


如 果 文 档 没 写 清 楚 ,， 这 种 优化 方法 是 有 问题 的 。 因 为 在 运行 过 程 中 ,函数 预 
— 先 计算 的 项 目 是 不 能 改变 的 ， 所 以 函数 的 接口 容易 造成 混乱 。 





通过 一 个 简单 快速 的 测试 ， 我 们 就 可 以 复核 这 种 优化 方法 对 函数 的 性 能 改善 : 


import time 
import math 


def degree sin(deg): 
return math.sin(deg * math.pi / 180.0) * math.cos(deg * math.pi / 180.0) 


def degree sin opt(deg, factor=math.pi/180.0, sin=math.sin, cos=math.cos): 
return sin(deg * factor) * cos(deg * factor) 


normal times - [] 
optimized times - [] 


for y in range(100): 
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init = time.clock() 
for x in range(1000): 

degree_sin(x) 
normal_times.append(time.clock() - init) 


init = time.clock() 
for x in range(1000): 

degree_sin_opt (x) 
optimized_times.append(time.clock() - init) 


$s" $ (reduce(lambda x, y: x + y, normal times, 0) / 100) 


print "Normal function: 
print "Optimized function: %s" $ (reduce(lambda x, y: x + y, optimized times, 0) / 100) 


上 面 的 代码 统计 了 在 0 到 1000 范 围 内 两 个 版 本 函数 运行 的 时 间 。 代码 保 存 了 测量 结果 ， 并 最 
终 得 到 了 每 个 函数 的 平均 运行 时 间 。 结 果 如 下 图 所 示 。 








默认 参数 
性 能 改善 























行 消耗 时 间 





运 














普通 函数 经 过 优化 的 函数 























显然 这 不 是 一 个 十 分 出 色 的 优化 手段 。 但 是 , 它 为 我 们 节省 了 几 毫 秒 的 运行 时 间 ， 因 此 值得 
我 们 关注 。 还 要 牢记 的 是 ， 如 果 你 在 一 个 开发 操作 系统 的 团队 中 工作 ， 使 用 这 种 方法 会 出 问题 。 























4.3 ”列表 综合 表达 式 与 生成 器 

列表 综合 表达 式 是 Python 提 供 的 特殊 范式 ， 以 数学 方式 表达 要 产生 的 列表 ,重点 是 描述 计算 
什么 ， 而 不 是 描述 计算 的 过 程 ( 经 典 的 for 循 环 语句 )。 

下 面 通过 一 个 例子 来 更 好 地 理解 列表 综合 的 运行 方式 : 


# 用 列表 综合 表达 式 产 生 0-100 内 的 50 个 偶数 
multiples_of_two = [x for x in range(100) if x % 2 == 0] 






































4 
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# 通过 for 循 环 产 生 同 样 的 结果 

multiples_of_two = [] 

for x in range(100): 

PEAR WX wu 
multiples of two.append(x) 

列表 综合 并 不 是 要 完全 取代 fo 循环 。 在 像 上 面 的 创建 列表 的 例子 中 用 for 循 环 并 没有 问题 。 
但 是 ， 因 为 foz 循 环 这 种 方式 有 副作用 ， 所 以 不 太 推荐 使 用 。 用 fo 循环 可 能 得 不 到 你 需要 的 列 
Ko 你 很 可 能 在 循环 体 中 放 了 一 些 函 数 , 并 运行 一 些 计算 , 但 是 最 终 并 没有 保存 到 列表 中 。 这 时 ， 
使 用 列表 综合 表达 式 可 能 会 影响 代码 的 可 读 性 。 


为 了 搞 明 白 为 什么 列表 综合 表达 式 比 for 循 环 的 性 能 更 好 ， 我 们 需要 做 一 些 代码 分 解 工作 ， 
还 得 看 一 点 儿 字 节 码 。 代 码 之 所 以 可 以 分 解 ， 是 因为 Python 虽然 是 一 个 解释 型 语言 ， 但 是 代码 最 
终 还 是 会 编译 成 字 节 码 。 字 节 码 需要 经 过 处 理 才 能 被 理解 。 因 此 ， 我 们 用 ai s 模 块 把 字 节 码 转 换 
成 人 能 读 懂 的 形式 ， 然 后 分 析 它 们 执行 的 细节 。 

让 我 们 看 看 下 面 的 代码 : 

import dis 


import inspect 
import timeit 



















































































programs = dict ( 
loop=""" 
multiples_of_two = [] 
for x in range(100): 
Ee wx ey 
multiples_of_two.append (x) 


comprehension-'multiples of two = [x for x in range(100) if x $2 == 0]', 


for name, text in programs.iteritems(): 
print name, timeit.Timer(stmt-text).timeit() 
code - compile(text, '«string»', 'exec') 
dis.disassemble(code) 


代码 输出 结果 包括 两 部 分 : 
口 每 段 代码 的 运行 时 间 
口 通过 ai s 模 块 分 解 出 的 解释 器 指令 集 


输出 结果 如 下 面 的 截图 所 示 ( 在 你 的 运行 结果 中 ,时 间 可 能 会 不 同 , 但 是 其 他 内 容 应 该 是 一 
样 的 )。 
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. 48636889458 
BUILD LIST 
LOAD NAME 
LOAD CONST 
CALL FUNCTION 
GET ITER 
FOR ITER 
STORE NAME 
LOAD NAME 
LOAD CONST 
BINARY MODULO 
LOAD CONST 
COMPARE OP 
POP JUMP IF FALSE 
LOAD NAME 
LIST APPEND 
JUMP ABSOLUTE 
STORE NAME 
LOAD CONST 
RETURN VALUE 
loop 9.42489385605 

2 BUILD LIST 

STORE NAME 


SETUP LOOP 
LOAD NAME 
LOAD CONST 
CALL FUNCTION 
GET ITER 

FOR ITER 
STORE NAME 


LOAD NAME 

LOAD CONST 

BINARY MODULO 
LOAD CONST 
COMPARE OP 

POP JUMP IF FALSE 


LOAD NAME 
LOAD ATTR 
LOAD NAME 
CALL FUNCTION 
POP TOP 

JUMP ABSOLUTE 
JUMP ABSOLUTE 
POP BLOCK 
LOAD CONST 
RETURN VALUE 


3 





(range) 
(100) 


(to 44) 
(x) 
(x) 
(2) 


(0) 
(==) 


(x) 


(multiples of two) 
(None) 


(multiples of two) 


(to 61) 
(range) 
(100) 


(to 60) 
(x) 


(x) 
(2) 


(8) 


(== 


(multiples of two) 
(append) 
(x) 


(None) 


首先 ， 上 图 中 的 结果 说 明 列 表 综 合 版 的 代码 确实 比 for 循 环 要 快 。 现 在 ,让 我 们 仔细 地 逐条 











对 比 两 种 方式 的 指令 集 列表 ， 以 便 更 好 地 理解 两 者 的 差异 。 
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for 循 环 指令 it B 列表 综合 指令 it g 
BUILD LIST BUILD LIST 
STORE NAME 列表 multiples_of _ two 的 定义 
SETUP_LOOP 
LOAD_NAME range 国 数 LOAD_NAME range make 
LOAD, CONST 100 (range 函 数 的 属性 入) | LOAD_CONST 100 (range t MIU Bie 

值 ) 

CALL_FUNCTION 调用 range 函 数 CALL_FUNCTION 调用 range 函 数 
GET_ITER GET_ITER 
FOR_ITER FOR_ITER 
STORE_NAME 临时 变量 x STORE_NAME 临时 变量 x 
LOAD_NAME LOAD_NAME 
LOAD_CONST Xy A zo LOAD_CONST x $2 == 
BINARY_MODULO BINARY_MODULO 
LOAD_CONST LOAD CONST 
COMPARE OP COMPARE OP 





POP JUMP IF FALSE 


POP. JUMP IF FALSE 





























LOAD NAME LOAD NAME 

LOAD ATTR 查询 appena 方 法 LIST_APPEND 把 值 追 加 到 列表 中 
LOAD_NAME 加 载 变量 x 的 值 

CALL_FUNCTION 把 值 追 加 到 列表 中 

POP_TOP 





JUMP_ABSOLUTE 


JUMP_ABSOLUTE 











JUMP_ABSOLUTE STORE NAME 
POP BLOCK LOAD CONST 
LOAD CONST RETURN VALUE 








RETURN, VALUE 











从 上 表 可 以 看 出 ，for 循 环 产生 的 指令 集 更 长 。 列 表 综 合 产生 的 指令 集 就 像 是 for 循 环 指令 
集 的 真子 集 ， 主 要 的 差异 是 数值 被 增加 到 列表 中 的 方式 不 同 。 在 for 循 环 里 ， 数 值 是 一 个 一 个 增 








加 的 ， 用 到 三 个 指令 (LOAD_ATTR、LOAD_NAMI 








列表 综合 只 用 了 一 个 简单 日 已 经 经 过 优化 的 指令 (LIST_APP1 

















E 和 CALL_FUNCTION )。 但 是 ， 从 图 中 可 以 看 出 ， 





END )o 


仅 更 高 效 ， 有 时 候 还 可 以 实现 更 好 的 代码 可 读 性 。 


| Q 这 就 是 为 什么 在 处 理 列表 时 ，for 循 环 不 能 作为 主力 使 用 。 这 是 因为 列表 综 
合 不 

















但 是 ， 即 使 For 循环 需要 做 额外 操作 (会 产生 副作用 )， 也 切记 不 要 肆意 将 所 有 的 for 循 环 都 
改 成 列表 综合 。 这 是 因为 有 时 候 未 经 优化 的 列表 综合 ， 可 能 比 for 循 环 消耗 的 时 间 更 长 。 


Ba, 还 有 一 个 相关 的 知识 点 值得 关注 : 在 处 理 大 列表 的 时 候 , 列表 综合 表达 式 可 能 就 不 好 
使 了 。 这 是 因为 列表 综合 需要 直接 产生 每 一 个 值 。 因 此, 如 果 你 要 处 理 一 个 包含 10 万 元 素 的 列表 ， 
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还 有 一 种 更 好 的 办 法 。 你 可 以 用 生成 器 表达 式 (generator expression )， 不 需要 直接 返回 列表 ， 而 
是 返回 一 个 生成 器 对 象 ， 它 的 API 与 列表 类 似 。 但 是 ， 每 当 你 请 求 列 表 元 素 时 ， 生 成 器 表达 式 就 
会 为 你 动态 地 生成 列表 元 素 。 


生成 器 对 象 和 列表 对 象 的 主要 差异 是 ， 生 成 器 对 象 不 支持 随机 接 和 人 (random access )。 所 以 
你 不 能 再 用 方 括号 直接 标记 表达 式 。 但 是 你 可 以 通过 for 循 环 遍历 生成 器 对 象 获得 列表 : 














my list = (x**2 for x in range(100)) 
# 你 不 能 这 么 写 
print my_list[1] 
# 但 是 可 以 这 么 写 
for number in my_list: 
print number 


列表 对 象 和 生成 器 对 象 的 另 一 个 关键 差异 是 , 生成 名 对 象 只 能 遍历 一 次 ,而 列表 对 象 可 以 饥 
历任 意 次 。 这 个 差异 非常 重要 ， 因 为 它 直接 影响 你 使 用 列表 的 效率 。 因 此 , 在 决定 使 用 列表 综合 
表达 式 还 是 生成 器 对 象 时 ， 这 一 点 不 可 忽略 。 


接 入 生成 器 的 列表 元 素 时 可 能 会 增加 一 点 儿 资 源 消耗 , 但 是 用 它 创建 列表 的 速度 更 快 。 列表 
综合 表达 式 和 生成 器 表达 式 创 建 不 同 长 度 列表 的 时 间 如 下 图 所 示 。 












































列表 综合 表达 式 和 生成 器 表达 式 的 性 能 对 比 


0.005 一 一 列表 综合 表达 式 


时 间 
o 
2 
e 
A 





10 100 1000 10 000 100 000 


生成 元 素 的 数量 


从 上 图 可 以 看 出 , 生成 器 表达 式 在 创建 规模 较 大 的 列表 时 更 有 优势 ,而 创建 规模 较 短 的 列表 
时 ， 列 表 综合 表达 式 更 有 优势 。 
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4.4 ctypes 








ctypes 库 可 以 让 开发 者 直接 进入 Python 的 底层 , 借助 C 语 言 的 力量 进行 开发 。 这 个 库 只 有 官方 
版 本 解释 圳 (CPython ) 里 面 才 有 ， 因 为 这 个 版 本 是 C 语 言 写 的 。 其 他 版 本 ， 如 PyPy 和 Jython， 都 

















不 能 接 入 这 个 库 。 

这 个 连接 C 语 言 的 接口 可 以 做 很 多 事情 ， 因 为 你 可 以 直接 加 载 预 编译 代码 ， 并 用 C 语 言 执行 。 
也 就 是 说 ， 通 过 它 你 就 可 以 接 人 Windows 系 统 上 的 kerne132.dl1 和 msvcrt .dl11 动 态 链接 库 ， 
以 及 Linux 系 统 上 的 1ibc .so.6 库 。 

结合 我 们 的 性 能 优化 日 标 ， 我 们 将 介绍 如 何 加 载 自 定 义 C 语 言 库 ， 以 及 如 何 加 载 操作 系统 库 





来 利用 优化 过 的 代码 。 关 于 这 个 库 的 具体 用 法 ， 请 参考 官方 文档 : https://docs.python.org/2/ 


library/ctypes.html。 


4.4.1 


有 时 ,无 论 我 们 在 代码 上 月 
们 可 以 把 关键 代码 写成 C 语 言 


下 面 通过 


























加 载 自 定 义 ctypes 


日 了 多 少 优化 方法 ， 可 能 都 没 法 儿 满 足 我 们 对 性 能 的 要 求 。 这 时 我 
编译 成 一 个 库 ， 然 后 导入 Python 当 作 模 块 使 用 。 





个 例子 来 演示 如 何 实 现 这 种 优化 ， 以 及 性 能 可 以 改善 到 何 种 程度 。 








需要 解决 的 问题 很 简单 ， 也 是 一 个 基本 问题 。 我 们 的 代码 需要 从 100 万 个 整数 的 列表 中 找 出 


所 有 素数 。 
程序 代码 如 下 所 示 : 


import math 
import time 


def check prime (x): 
values - xrange(2, 
for i in values: 

If 25» X we Dg 


int (math.sqrt (x))) 


return False 


return True 


init - time.clock() 
numbers py - 
print "ts" 


9. 
$ 


上 面 的 代码 很 简单 。 你 也 可 以 把 列表 综合 表达 式 改 成 生成 器 进行 改 
， 我 们 暂时 不 这 样 做 。 现 在 看 看 C 代 码 ， 纯 Python 版 的 平均 运行 时 间 是 4.5 秒 。 


言 优 化 的 效 纪 





[x for x in xrange(1000000) 
(time.clock() 


if check_prime (x) ] 
- init) 


= 
ab 
o 





但 是 ， 为 了 演示 C 语 
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让 我 们 写 一 个 C 语 言 版 的 check_prime 函 数 ， 然 后 把 它 当 作 共 享 库 (so) 导入 Python 代码 








#include <stdio.h> 
#include <math.h> 


int check_prime(int a) 


{ 


int «e; 
for (G2 2 ; 6 <= sqrt (a) s G#4 ) 1 
if ( a$c == 0 ) 
return 0; 
} 
return 1; 


} 
用 下 面 的 命令 产生 库 文件 : 


$gcc -Shared -o check primes.so -fPIC check primes.c 


然后 我 们 在 Python 中 写 入 两 个 版 本 的 函数 ， 比 较 运 行 时 间 ， 代 码 如 下 : 





import time 
import ctypes 
import math 


check primes types = ctypes.CDLL('./check prime.so').check prime 


def check prime (x): 
values = xrange(2, int(math.sqrt (x) ) ) 
for i in values: 
QE Gc p i eec 
return False 


return True 


init - time.clock() 
numbers py - [x for x in xrange(1000000) if check prime(x)] 


9. 


print "Full python version: $s seconds" $ (time.clock() - init) 


init - time.clock() 

numbers c - [x for x in xrange(1000000) if check primes types(x)] 
print "C version: $s seconds" $ (time.clock() - init) 

print len(numbers. py) 


上 面 的 代码 输出 结果 如 下 : 


ah Python 版 C 语 言 版 





4.49%) 1.045» 
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性 能 提升 的 效果 非常 好 ! 运行 时 间 从 4.5 秒 降 到 了 1 秒 。 


44.2 ”加 载 一 个 系统 库 


有 时 ， 并 不 需要 自己 动手 写 C 函 数 。 系 统 的 库 文件 可 能 已 经 为 你 准备 好 了 。 你 需要 做 的 就 是 
导入 库 文件 ， 调 用 函数 。 


让 我 们 再 看 一 个 简单 的 示例 。 
下 面 这 行 代码 生成 100 万 个 随机 数 ， 一 共 消 耗 了 0.9 秒 : 














randoms = [random.randrange(1, 100) for x in xrange(1000000)] 
而 下 面 这 行 代码 ， 只 需要 0.3 秒 : 

randoms = [(libc.rand() % 100) for x in xrange(1000000)] 
运行 两 种 方法 并 打印 各 自 运行 时 间 的 完整 代码 如 下 : 


import time 
import random 
from ctypes import cdll 


libc = cdll.LoadLibrary('libc.so.6') # Linux 系 统 
#1ibc = cdll.msvcrt # Windows f 


init - time.clock() 
randoms - [random.randrange(1, 100) for x in xrange(1000000)] 
print "Pure python: $s seconds" $ (time.clock() - init) 


init - time.clock() 
randoms - [(libc.rand() $ 100) for x in xrange(1000000)] 
print "C version : %s seconds" $ (time.clock() - init) 


4.5 字符 串 连 接 


之 所 以 把 Python 的 字符 串 单独 作为 本 章 的 一 节 内 容 ， 是 因为 Python 的 字符 串 和 其 他 语言 中 的 
字符 串 不 太一 样 。 在 Python 里 ， 字 符 串 是 不 可 变 的 (immutable )， 就 是 说 一 旦 你 创建 了 一 个 字符 
串 ， 就 不 能 再 改变 它 的 值 。 


这 显然 是 一 种 让 人 无 语 的 设计 ， 因 为 我 们 经 常 要 在 字符 串 变 量 中 进行 连接 (concatenation ) 
或 替换 等 操作 。 但 是 ， 证 普通 的 Python 开发 者 没有 意识 到 的 是 ,在 这 种 设计 《不 可 变 的 字符 串 ) 
背后 还 有 许多 超 乎 想象 的 事情 。 


由 于 字符 串 是 不 可 变 的 , 每 当 我 们 要 做 任何 改变 字符 串 内 容 的 操作 时 , 其实 都 是 创建 了 一 个 




































































45 字符 串 连接 93 











带 有 新 内 容 的 新 字符 串 , 我 们 的 变量 会 指向 新 创建 的 字符 串 。 因此 , 处 理 字符 串 时 必须 小 心 谨慎 ， 
三 思 而 后 行 。 


有 一 种 非常 简单 的 方法 可 以 验证 上 面 描述 的 场景 ,下 面 的 代码 创建 了 两 个 内 容 相 同 的 字符 串 
变量 (我 们 定义 每 个 变量 时 都 写 一 次 字符 串 ) 然后 , 用 id 函数 (在 CPython 里 返回 的 是 储存 变量 
值 的 内 存 地 址 HF ) 就 可 以 比较 两 个 变量 。 如 果 字 符 串 是 可 变 的 , 那么 所 有 的 对 象 都 不 一 样 ， 
因此 返回 值 也 会 不 同 。 让 我 们 看 看 代码 : 
































a = "This is a string" 

be “PhS 18 d string" 

print id(a) == id(b) # 打印 True 

print id(a) == id("This is a string") # 打印 True 

print id(b) == id("This is another String") # 打印 False 


和 代码 中 的 注释 一 样 ， 代 码 的 输出 结果 是 True 、True 和 False， 这 其 实 显示 了 我 们 每 次 写 
This is a string 字 符 串 时 ，Python 底 层 是 如 何 重用 字符 串 的 。 


下 图 用 一 种 图 形 化 的 方式 表达 了 同样 的 含义 。 




















a = "hello world" 
b = "goodbye world!" 


a = “hello world" 
b — "hello world" 


b = "goodbye world!" hello world 
hello world 


O goodbye world 


虽然 我 们 写 了 两 次 字符 串 , 但 是 本 质 上 两 个 变量 都 是 指向 同一 块 内 存 (里面 包含 实际 的 字符 
























































串 )。 如 果 我 们 把 新 的 字符 串 赋值 给 其 中 一 个 变量 ， 我 们 并 不 能 改变 字符 串 的 内 容 ， 而 是 把 变量 
指向 了 男 一 个 内 存 地 址 。 
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"hello world" 
a — "hello world" 
b — "hello world how are you?" 


b += " how are you?" hello world 
hello world i 


9o hello world how are you? 

















之 前 的 例子 也 发 生 了 同样 的 事情 ， 我 们 有 一 个 变量 b 指 向 变量 a。 另 外 ， 如 果 我 们 想 调整 b， 
那么 就 要 重新 创建 一 个 新 的 字符 串 。 








a = "nice to meet you!" 


a = "hello world” b = "goodbye world!” 


b = "hello world" 


Garbage Collector 
a = "nice to meet you!" clean up 
b = "goodbye world!" {if no other active reference to 
hello world p mm ^m this value) 














最 后 ,如 果 在 上 面 的 例子 中 , 我 们 把 两 个 变量 的 值 都 改变 了 , 会 发 生 什么 事情 呢 ? 放 在 内 存 
中 的 hello world 字 符 串 会 怎么 样 呢 ”其 实 ， 如 果 这 个 字符 串 没 有 引用 变量 ,那么 垃圾 回收 器 
( Garbage Collector ) 就 会 过 来 回收 它 ， 并 释放 被 占用 的 内 存 。 


也 就 是 说 ,不 可 变 对 象 也 不 是 一 无 是 处 。 如 果 使 用 恰当 ,它们 其 实 对 性 能 有 好 处 ， 例 如 ， 它 
们 可 以 作为 字典 的 键 ， 甚 至 可 以 在 不 同 的 变量 绑 定 (variable binding) 之 间 进 行 共享 ( 因为 引用 
同一 个 字符 串 时 其 实 都 在 用 同一 块 内 存 )。 也 就 是 说 ， 每 当 你 使 用 字符 串 hey there 时 ， 其 实 都 
是 完全 一 样 的 对 象 ， 无 论 它 被 赋值 给 了 哪个 变量 〈 就 像 我 们 前 面 见 到 的 那样 )。 

记 住 这 些 之 后 ， 想 想 一 些 常 见 情况 下 可 能 发 后 的 事情 ， 比 如 下 面 这 个 例子 : 

full doc = "" 


for word in word_list: 
full_doc += word 
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上 面 的 代码 用 worq_list 列 表 中 的 每 个 元 素 串 成 了 一 个 新 字符 串 ful1_doc。 这 其 实 并 非 有 
效 的 内 存 使 用 方法 , 对 吗 ? 当 我 们 想 将 不 同 片段 重新 组 合成 新 字符 串 时 , 这 其 实 是 十 分 普遍 的 情 
景 。 有 一 种 更 加 高 效 、 更 省 内 存 的 处 理 方 式 : 


full_doc = "".join(world_list) 


FH, 这 种 方法 更 加 容易 阅读 , 书写 更 方便 ,内 存 与 时 间 消 耗 都 更 少 。 下 面 的 代码 显示 了 每 
种 做 法 消耗 的 时 间 。 使 用 正确 的 命令 ， 我 们 还 可 以 看 到 for 循 环 使 用 的 内 存 要 多 一 点 儿 : 




















import time 
import sys 


option = sys.argv[1] 


words = [str(x) for x in xrange(1000000) ] 


it optiön em VL": 
full dog scm 
init - time.clock() 
for w in words: 
full doc += w 





print "Time using for-loop: $s" $ (time.clock() - init) 
else: 

init - time.clock() 

full doc = "".join(words) 

print "Time using join: $s" $ (time.clock() - init) 








通过 下 面 使 用 Linux 的 time 功能 的 命令 行 ， 我 们 可 以 执行 脚本 并 测量 内 存 使 用 量 。 
口 for 循 环 版 本 : 
$ /usr/bin/time -f "Memory: %M bytes" python script.py 1 
O join 版 本 : 
$ /usr/bin/time -f "Memory: %M bytes" python script.py 0 
fo 循环 版 本 的 命令 的 输出 结果 如 下 : 


Time using for-loop: 0.155635 seconds 
Memory: 66212 bytes 


join 版 本 命令 的 输出 结果 如 下 : 


Time using join: 0.015284 seconds 
Memory: 66092 bytes 


显然 join 版 本 消耗 的 时 间 更 短 ， 而 且 占 用 的 内 存 〈 通 过 Linux 系 统 的 time 命 令 ) 也 更 少 。 
在 处 理 Python 字符 串 时 还 会 遇 到 的 场景 ， 就 是 连接 不 同类 型 的 字符 串 ; 当 你 处 理 几 个 变量 时 
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会 遇 到 这 样 情况 ， 就 像 下 面 这 个 例子 : 
document = title + introduction + main_piece + conclusion 


每 当 你 让 系统 实现 新 连接 时 ， 最 终 都 要 创建 几 个 子 字符 串 。 因 此 更 合理 也 更 高 效 的 做 法 ,是 
用 C 语 言 字符 串 的 变量 内 插 法 ( variable interpolation ): 











document = "%s%s%s%s" $ (title, introduction, main piece, conclusion) 
Fb, Flocal s PRC E E Y FITE AY BOE EU : 


document = "%(title)s%(introduction) s%(main_piece) s%(conclusion)s" % locals() 


46 其 他 优化 技巧 


前 面 介绍 的 都 是 程序 优化 过 程 中 最 常用 的 一 些 技术 。 有 一 些 是 专门 面向 Python 的 〈 比如 字符 
串 连 接 和 ctypes )， 还 有 一 些 是 通用 的 优化 技术 〈 比如 函数 返回 值 缓存 和 函数 查询 表 )。 


还 有 一 些 专 门 针 对 Python 的 小 窃 门 ， 下 面 我 们 将 逐一 介绍 。 它 们 可 能 不 会 显著 地 提升 性 能 ， 
但 是 可 以 揭示 Python 语言 的 内 部 运作 方式 。 
























































O 成 员 关 系 测 试 : 当 我 们 想 判 断 一 个 值 是 否 在 一 个 列表 (ist) 中 时 ( 这 里 用 的 单词 “list” 
具有 一 般 性 ， 并 非特 指 Python 的 列表 1ist )， 比 如 像 “a inb” 这 样 的 操作 ， 用 和 集合 (sec) 
或 字典 (dict ) (查找 时 间 复 杂 度 是 O(1) ) 可 以 获得 比 列表 (list) MIH (tuple) E 
好 的 性 能 。 

口 不 要 重复 发 明 轮 子 : Python 的 标准 库 核 心 组 件 大 都 是 用 经 过 优化 的 C 语 言 写成 的 。 因 此 不 
需要 你 自 建 ， 而 且 你 自 建 的 很 可 能 会 更 慢 。 像 列表 、 元 组 、 和 集合 和 字典 这 些 数据 类 型 ， 
以 及 数组 (array) HEART ( itertools ) 和 队列 (collections .deque ) 这 些 模 
块 都 推荐 使 用 。 使 用 内 置 函 数 ， 如 map (operator.add，1ist1，1ist2) ， 也 会 比 
map (lambda x, y: x+y, listl, list2) BR, 

O 不 要 忘记 了 队列 : 当 需 要 一 个 固定 长 度 的 数组 或 可 变 长 度 的 栈 (stack) 时 ， 列 表 非 常 适 

合 。 但 是 ， 在 处 理 pop (0) 或 insert(0,，vour_list) 操 作 时 ， 可 以 试 试 collections . 

deque， 因 为 它 在 列表 的 任何 一 端 都 可 以 快速 地 完成 (0(1) ) 插入 和 弹出 操作 。 

有 时 不 定义 函数 更 好 : 调用 函数 会 增加 大 量 的 资源 消耗 〈 我 们 之 前 已 经 看 见 过 )。 因 此 ， 

有 时 候 ， 尤 其 是 在 时 间 密 集 的 循环 体 中 内 联 函 数 代码 ， 不 调用 外 部 函数 ， 可 以 更 加 高 效 。 

这 个 窍门 有 一 个 很 大 的 代价 ， 因 为 它 可 能 会 损害 代码 的 可 读 性 和 维护 便利 性 。 因 此 ， 仅 

当 必须 提升 性 能 时 才 应 这 样 做 。 下 面 的 简单 示例 演示 一 个 简单 的 查询 操作 如 何 增加 了 大 

量 的 运行 时 间 : 






































口 























import time 
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def fn(nmbr): 
return (nmbr ** nmbr) / (nmbr + 1) 
nmbr = 0 
init = time.clock() 
for i in range(1000): 
fn(i) 
print "Total time: %s" % (time.clock() - init) 


init - time.clock() 


nmbr - 0 
for i in range(1000): 
nmbr = (nmbr ** nmbr) / (nmbr + 1) 
print "Total time (inline): $s" $ (time.clock() - init) 




















尽 可 能 用 key 函 数 排序 : 在 对 列表 进行 自 定义 规则 的 排序 时 ,不 要 用 比较 函数 排序 ， 而 是 
应 该 尽 可 能 地 用 key 函 数 排序 。 这 是 因为 每 个 元 素 只 需要 调用 一 次 key 函 数 ， 而 在 运行 过 
程 中 每 一 项 都 要 调用 比较 函数 好 儿 次 。 让 我 们 看 看 下 面 对 比 两 种 方法 的 例子 : 


import random 
import time 


# 创建 两 个 随机 数组 
listl = [[random.randrange 100), chr ( 


(0, 

random.randrange(32, 122))] for x in range(100000) J 
(0 
)) 





























list2 = [[random.randrange(0, 100), chr ( 
random.randrange(32, 122))] for x in range(100000) J 


# Gat OAR dE cmo () 对 两 个 数据 排序 

init = time.clock() 

listi.sort(cmp-lambda a, b: cmp(a[11, b[1])) 

print "Sort by comp: $s" $ (time.clock() - init) # 打印 结果 0.213434 


E 把 字符 串 元 素 作 为 词典 的 键 ， 进 行 排 序 

init = time.clock() 

list2.sort (key=lambda a: a[11) 

print "Sort by key: $s" $ (time.clock() - init) # 打印 结果 0.047623 


口 1 比 True 好 : Python 2.3 中 的 while 1 得 到 了 优化 ， 跳 转 一 次 就 能 完成 ， 而 while True 并 





没有 ， 因 此 需要 跳 转 好 几 次 才能 完成 。 因 此 用 while 1 比 while True 要 更 高 效 ， 虽 然 和 
内 联 函 数 一 样 ， 这 么 写 也 要 付出 很 大 代价 。 


口 多 元 赋值 (multiple assignments ) 很 慢 但 是 …… : 多 元 赋值 (a,b = "hellothere", 123) 




















通常 比 单独 赋值 要 慢 。 但 是 ， 在 进行 变量 交换 时 ， 它 比 普通 方法 要 快 〈 因为 我 们 不 需要 
使 用 临时 变量 和 赋值 过 程 ): 


a = "hello world" 
bee 123 

# 这 种 做 更 快 
a, b=b, a 
* 相 比 这 种 方式 
tmp =a 
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4.7 





b 
tmp 


a 
b 





O 推荐 使 用 链 式 比较 : 在 比较 三 个 变量 时 ， 不 要 用 x<y 和 )<z， 可 以 用 x*<y<z。 这 样 更 容易 阅 





读 (更 自然 ) HEWER, 








口 用 命名 元 组 (namedtuple) 替换 常规 对 象 : 使 用 常规 的 类 (class ) 方法 创建 存储 数据 的 








简单 对 象 时 ， 实 例 中 会 有 一 个 字典 存储 属性 。 这 个 存储 对 属性 少 的 对 象 来 说 是 一 种 浪费 。 
如 果 你 需要 创建 大 量 的 简单 对 象 ， 会 浪费 大 量 内 存 。 这 种 情况 下 ， 你 可 以 用 命名 元 组 。 这 
是 一 个 新 的 tuple 子 类 ， 可 以 轻松 地 构建 并 优化 任务 。 关 于 命名 元 组 的 详细 内 容 ， 请 参考 
官方 文档 https://docs.python.org/2/library/collections.html#collections. namedtuple。 下 面 的 代 
码 用 常规 类 和 命名 元 组 分 别 创建 了 100 万 个 对 象 ， 然 后 显示 两 种 方式 的 消耗 时 间 。 








import time 
import collections 


class Obj (object): 


all = {} 
init = time.clock() 
for i in range(1000000): 
alia) = Objti) 
# dTfpRegular*] #: 2.384832 
print "Regular Objects: %s" % (time.clock() - init) 


Obj = collections.namedtuple('Obj', 'i 1') 


all = {} 
init = time.clock() 
for i in range(1000000): 
all[i] = Obj(i, [1) 
# 打印 NamedTuples 对 象 : 1.272023 
print "NamedTuples Objects: %s" % (time.clock() - init) 


小 结 





在 这 一 章 , 我 们 介绍 了 一 些 优化 技术 。 其 中 一 些 技术 可 以 大 幅 提升 程序 的 运行 速度 ， 或 节省 
大 量 的 内 存 ， 另 外 一 些 则 只 能 略微 提升 程序 的 运行 速度 。 这 一 章 的 大 部 分 内 容 都 是 面向 Python 的 
技术 ， 但 是 有 一 些 技术 也 适用 于 其 他 编程 语言 。 


下 








一 章 , 我 们 将 继续 探索 优化 技术 , 重点 介绍 多 线程 和 多 进程 技术 , 以 及 每 种 技术 的 应 用 场景 。 


多 线程 与 多 进程 








在 人 们 讨论 代码 优化 时 ， 并 发 (concurrency ) 和 并 行 (parallelism ) 是 两 个 不 可 能 绕 过 的 话 
题 。 但 是 ， 针 对 Python 讨论 这 类 话题 时 ， 通 常 都 是 在 批评 这 门 语言 。 批 评 者 通常 抱怨 在 Python 中 
为 并 行 和 并 发 付出 的 努力 与 获得 的 真实 效果 ( 有 些 时 候 甚至 没有 效果 ) 不 成 正比 。 























在 这 一 章 ， 我 们 将 会 看 到 批评 者 对 Python 的 批评 有 时 候 是 对 的 ， 有 时 候 则 并 不 正确 。 和 大 多 
数 工 具 一 样 , 这 些 技术 都 需要 一 些 条 件 才能 为 开发 者 解决 问题 ， 而 不 是 故意 不 让 人 使 用 。 在 介绍 
Python 如 何 实现 并 行 任务 的 过 程 中 ， 真 正 值 得 介绍 的 两 个 主题 如 下 。 

O 多 线程 (multithreading ): 这 是 实现 真正 的 并 行 任 务 的 经 典 做 法 。 像 C++ 和 Java 之 类 的 语 

言 也 提供 了 这 类 特性 。 

O 多 进程 ( multiprocessing ): 虽然 并 非 主流 , 而 且 有 一 些 痛 点 需要 解决 , 但 是 我 们 将 会 发 现 ， 
它 可 以 作为 多 进程 的 另 一 种 版 本 。 


学 读 完 本 章 后， 你 就 会 对 多 进程 和 多 线程 的 差异 有 清晰 的 认识 。 另 外 ， 你 还 将 明白 什么 是 
GIL ( Global Interpreter Lock， 全 局 解释 锁 )， 以 及 它 如 何 影 响 你 做 出 合理 的 并 行 选择 。 





















































5.1 并 行 与 并 发 
这 两 个 术语 经 常 同时 出 现 , 并 日 被 混用 , 但 它们 其 实 是 完全 不 同 的 概念 。 并 行 是 指 两 个 或 多 
个 进行 同时 运行 。 这 在 多 核心 平台 上 可 以 实现 ， 比 如 每 个 处 理 器 上 运行 一 个 进程 。 


并 发 是 指 在 同一 个 处 理 絮 上 运行 多 个 进程 。 在 操作 系统 中 ， 通 常 使 用 时 际 (time slicing ) 技 
术 来 解决 这 类 问题 。 但 是 ， 这 种 办 法 并 非 真 正 的 并 发 ， 只 是 由 于 处 理 器 切换 任务 的 速度 非常 快 ， 
看 起 来 像 是 并 行 。 


并 行 与 并 发 的 差异 如 下 图 所 示 。 







































































并 行 


并 发 

























处 理 器 运行 时 间 








并 发 是 现代 操作 系统 常用 的 技术 。 因 为 这 种 技术 与 计算 机 处 理 器 的 数量 无 关 , 所 以 操作 系统 


需要 同时 运行 多 个 系统 任务 , 而且 还 要 满足 月 
需要 时 刻 关 注 处 理 需 的 任务 调度 时 











行 上 下 文 切 换 ， 给 每 个 任务 一 个 时 际 。 
现在 让 我 们 回 到 本 章 一 开始 提 到 的 问题 : 如 何在 Python 程序 中 实现 并 行 或 并 发 呢 ? 这 正 是 多 





线程 和 多 进程 的 作用 所 在 。 


5.2 多 线程 


有 户 的 任何 需求 。 为 了 解决 这 类 问题 ,操作 系统 首先 
HR, 记录 每 个 任务 需要 的 运行 时 间 , 然后 在 不 同 任务 之 间 进 








多 线程 是 程序 在 同样 的 上 下 文中 同时 运行 多 条 线程 的 能 力 。 这 些 线程 共享 一 个 进程 的 资源 ， 


可 以 在 并 发 模式 ( 单 核 处 更 




















编写 多 线程 的 代码 并 不 简单 。 但 是 ， 





Ede) 或 并 行 模式 〈 多 核 处 理 








Lat) 下 执行 多 个 任务 。 


多 线程 可 以 提供 一 些 非 常 显著 的 优点 。 





O 持续 响应 : 在 单线 程 的 程序 中 ， 执 行 一 个 长 期 运行 的 任务 可 能 会 导致 程序 冻结 。 多 线程 

















可 以 把 这 个 长 期 运行 的 任务 放 在 一 个 工作 线程 (workerthread ) 中 ， 在 程序 并 发 地 运行 任 
务 时 可 以 持续 响应 客户 需求 。 
















































































O 更 快 的 执行 速度 : 在 多 核 处 理 器 或 多 处 理 器 的 操作 系统 上 ， 多 线程 可 以 通过 真正 的 并 行 
提高 程序 的 运行 速度 。 
O 较 低 的 资源 消耗 : 利用 线程 模式 ， 程 序 可 以 利用 一 个 进程 的 资源 响应 多 个 请 求 。 
口 更 简单 的 状态 共享 与 进程 间 通 信 机 制 : 
之 间 的 通信 比 进程 间 通 信 简 单 。 

O 并 行 化 : 多 核 与 多 处 理 吉 系统 可 以 实现 多 线程 的 每 个 线程 独立 运行 。 英 伟 达 (Nvidia ) 的 








于 线程 都 共享 同一 资源 和 内 存 空间 ， 因 此 线程 





CUDA ( Compute Unified Device Architecture， 统 一 计算 设备 架构 ，http://www.nvidia.com/ 


object/cuda home new.html )， 或 科 纳 














斯 组 织 (Khronos Group ) 的 OpenCL (https://www. 


khronos.org/opencl )， 都 是 利用 数 十 乃至 数 百 个 处 理 需 进行 并 行 计算 的 GPU 运算 环境 。 
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多 线程 也 有 一 些 缺 点 。 


a 线程 同步 : 由 于 多 个 线程 是 在 同一 块 数据 上 运行 的 ， 所 以 需要 引入 一 些 机 制 预防 竞 态 条 

件 (race condition， 会 导致 数据 读 取 失败 )。 

口 问题 线程 导致 集体 有 崩溃 : 虽然 多 个 线程 好 像 是 独立 运行 的 ， 但 是 一 旦 某 个 线程 出 现 问题 ， 

就 可 能 造成 整个 进程 表演 。 

O 死 锁 (deadlock ): 这 是 线程 操作 的 常见 问题 。 通 常 ， 线 程 执 行 任务 时 会 锁 住 正在 使 用 的 
资源 。 当 一 个 线程 开始 等 待 另 一 个 线程 释放 资源 ， 而 另 一 个 线程 同时 也 要 等 待 第 一 个 线 
程 释放 资源 时 ， 就 发 生 了 死 锁 。 

通常 ， 多 线程 技术 完全 可 以 在 多 处 理 器 系统 上 实现 并 行 计 算 。 但 是 ，Python 的 官方 版 本 

( CPython ) 有 一 个 GIL 限 制 。GIL 会 阻止 多 个 线程 同时 运行 Python 的 字 节 码 , 这 其 实 就 不 是 真正 的 

并 行 了 。 如 果 你 的 系统 有 4 个 处 理 器 , 多 线程 可 以 把 CPU 跑 到 400% , 然而 , 你 能 看 到 的 其 实 是 100% 

甚至 更 慢 点 儿 ， 这 都 是 线程 问题 造成 的 。 


| 需要 注意 的 是 ，GIL 并 非 只 是 Python ( 或 CPython ) 的 问题 ， 其 他 编程 语言 | 
> 有， 




































































例如 Ruby 的 官方 版 本 Ruby MRI 以 及 OCaml ( https://ocaml.org/ )。 





CPpython 的 GIL 是 有 必要 的 ， 因 为 CPython 的 内 存 管理 不 是 线程 安全 的 。 因 此 ， 为 了 让 每 个 任 
务 都 按 顺序 进行 ， 它 需要 确保 运行 过 程 中 内 存 不 被 干扰 。 它 可 以 更 快 地 运行 单线 程 程序 ， 简 化 C 
语言 扩展 库 的 使 用 方法 ， 因 为 它 不 需要 考虑 多 线程 问题 。 


但 是 ,GIL 是 可 以 用 一 些 办 法 绕 过 的 。 例 如 , 由 于 GIL 只 阻止 多 个 线程 同时 运行 Python 的 字 节 
码 , 所 以 你 可 以 用 C 语 言 写 程序 ， 然 后 用 Python 封装 。 这 样 , 在 程序 运行 过 程 中 GIL 就 不 会 干扰 多 
线程 并 发 了 。 

另 一 个 GIL 不 影响 性 能 的 示例 就 是 网 络 服务 器 了 ， 服 务 器 大 部 分 时 间 都 是 在 读数 据 包 。 这 种 
情况 下 ,增加 线程 可 以 读 取 更 多 的 包 ， 虽 然 这 并 不 是 真正 的 并 行 。 这 样 做 可 以 增加 服务 器 的 性 能 
( 每 秒 钟 可 以 服务 更 多 的 客户 ), 但 是 不 会 影响 运行 速度 , 因为 每 个 线程 都 可 以 运行 同样 多 的 时 间 。 

































































5.3 ”线程 


现在 ,让 我 们 介绍 一 些 关 于 Python 线 程 的 知识 ， 以 便 理 解 如 何 使 用 它们 。 它 们 由 开始 、 执 行 
序列 和 结论 三 部 分 构成 。 还 有 一 个 指令 指针 ， 用 来 跟踪 正在 执行 的 线程 上 下 文 。 


HERI 以 在 需要 停止 线程 的 时 候 置 空 或 者 中 断 。 另 外 , 它 还 可 以 临时 性 地 保持 不 变 。 这 时 线 
程 基本 处 于 休眠 状态 。 


为 了 在 Python 里 使 用 线程 ， 可 以 采用 下 面 两 种 方法 。 
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口 thread 模 块 : 这 个 模块 提供 了 有 限 的 线程 能 力 。 它 很 容易 使 用 ， 适 合 小 项 目 ， 不 过 也 会 
增加 一 点 额外 的 资源 消耗 。 
O threading: 这 是 从 Python 2.4 引 入 的 新 模块 ， 提 供 了 一 些 更 强大 、 高 层次 的 线程 支持 。 




















5.3.1 用 thread 模块 创建 线程 


虽然 我 们 的 重点 是 介绍 threading 模 块 ， 但 是 我 们 用 一 个 例子 快速 地 演示 tnread 模 块 的 用 
法 是 多 么 简单 ， 它 不 需要 写 一 大 堆 代 码 。 








thread 模 块 ( https://docs.python.org/2/library/thread.html ) 提供 了 start_new_thread 方 法 。 
我 们 可 以 向 里 面 传人 以 下 参数 。 


O 我 们 可 以 传人 一 个 目标 函数 ， 里 面包 含 我 们 要 运行 的 代码 。 一 旦 函数 返回 值 ， 线 程 就 停 
止 运行 。 
口 我 们 也 可 以 传人 一 组 (元 组 ) 参数 ， 这 组 参数 是 目标 函数 的 输入 参数 。 
口 最 后 ， 我 们 还 可 以 传人 一 个 可 选 的 命名 参数 词典 。 


下 面 来 看 一 个 例子 : 


#!/usr/bin/python 
import thread 
import time 














# 打印 时 间 5 次 ， 每 次 延迟 “delay" 秒 
def print_time(threadName, delay): 
count = 0 
while count < 5: 
time.sleep (delay) 
count += 1 
print "%s: $s" % (threadName, time.ctime(time.time())) 


* 创建 两 个 线程 
try: 
thread.start_new_thread(print_time, ("Thread-1", 2, )) 
thread.start_new_thread(print_time, ("Thread-2", 4, )) 
except: 


print "Error: unable to start thread" 


# 我 们 需要 让 程序 持续 运行 ， 否 则 线程 就 会 消失 
while 1: 
pass 


上 面 代码 打印 的 输出 结果 如 下 图 所 示 。 


53 ”线程 103 














E 


上 面 的 代码 很 简单 ， 图 中 的 运行 结果 清晰 地 展示 两 个 线程 是 并 发 执行 的 。 在 print_time 隙 
数 里 面 写 了 一 个 循环 。 如 果 连 续 运 行 代码 两 次 ， 两 次 结果 显示 会 间隔 5 秒 钟 。 


但 是 ， 使 用 线程 和 不 用 线程 其 实 没什么 区 别 ， 我 们 其 实 是 并 发 地 运行 两 次 循环 。 
这 个 模块 还 提供 了 一 些 容易 使 用 的 线程 原生 接口 。 示 例如 下 : 









































interrupt_main 


这 个 方法 可 以 通过 键盘 向 主线 程 发 送 中 断 异 常 。 这 就 像 是 程序 运行 时 用 CTRL+C 一 样 。 如 果 
没有 收 到 中 断 异 常 ， 线 程 会 发 送 下 面 的 信号 中 断 程序 : 


exit 


这 个 方法 会 从 后 台 退 出 程序 。 它 的 优点 是 中 断 线程 时 不 会 引起 其 他 异常 。 让 我 们 把 之 前 的 
print_time 改 成 下 面 的 形式 : 


def print_time(threadName, delay): 5 
count = 0 


while count < 5: 
time.sleep (delay) 
count += 1 
print "%s: $s" $ (threadName, time.ctime(time.time() ) ) 
if delay == 2 and count == 
thread.exit () 


结果 如 下 所 示 : 



































J 
e 
ET 
Ei 
p] 
27 


NJ 





oM 


NJ 





allocate_lock 方 法 可 以 为 线程 返回 一 个 线程 锁 。 这 个 锁 可 以 帮助 开发 者 保护 重要 代码 在 
运行 过 程 中 不 受 竞 态 条 件 的 干扰 。 


返回 的 线程 锁 对 象 有 三 个 简单 的 方法 。 
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O acquire: 这 个 方法 的 主要 作用 是 为 当前 的 线程 请 求 一 把 线程 锁 。 它 接受 一 个 可 选 的 整 





口 工 





nu AE 























release: 





个 方法 会 释放 线程 锁 ， 让 下 一 个 线程 使 用 它 。 








口 locked: ncs ee. 就 返回 TRUE; 否则 返 


























下 面 用 一 个 简单 
量 的 值 。 因 此 ， 运 行 后 全 局 变量 的 结果 应 该 是 10: 
#!/usr/bin/python 
import thread 
import time 
global_value = 0 


def run(threadName) : 
global global_value 
local_copy = global_value 


print "%s 
global_va 


i in rang 
thread.st 


with value $s" % (threadName, local_copy) 
lue = local copy + 1 


e(10): 
art new thread(run, ("Thread-" + str(i), )) 


# 我 们 需要 让 程序 持续 运行 ， 否 则 线程 就 会 消失 
while 1: 


pass 


前 面 代码 运行 结果 如 下 : 


我 们 不 仅 没有 正确 地 增加 全 局 变量 的 值 (上 


Thread-1 with value OThread-3 with value 0 
Thread-6 with value 0 
Thread-8 with value 0 


Thread-4 with value OThread-0 with value 1 


Thread-5 with value 2 


Thread-2 with value 0 
Thread-7 with value 0 
Thread-9 with value 1 





























回 FALSE 








型 参数 。 如 果 参 数 是 90， 那么 进程 锁 一 旦 被 请 求 则 立即 被 获取 ， 不 需要 任何 等 待 。 如 果 参 
数 不 是 0， 那 么 表示 线程 可 以 无 条 件 地 获取 锁 ( 如 同 不 使 用 参数 )。 也 就 是 说 ， 如 果 线 程 
wee 那么 它 可 以 等 待 。 





o 


的 示例 演示 加 锁 如 何 帮 助 多 线程 代码 。 这 段 代码 用 10 个 线程 增加 一 个 全 局 变 





9 得 到 了 2 ), 而 且 打 印字 符 串 也 有 问题 。 可 以 看 到 ， 








我 们 有 两 个 字符 串 在 一 行 ， 而 它们 原本 应 该 是 两 行 。 两 个 字符 串 之 所 以 打印 在 同一 行 ,是 因为 两 


个 线程 同时 执行 打印 操作 。 于 是 在 同一 时 间 ， 两 个 字符 串 出 现在 一 行 里 。 








的 情况 也 发 生 在 全 局 变量 身上 。 当 线程 1、3、6、8、4、2 和 7 读 取 全 局 变量 的 值 以 便 加 
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1 时 ， 读 到 的 值 都 是 0 ( 就 是 每 个 线程 复制 到 local_value 变 量 的 值 )。 我 们 需要 确保 代码 在 复制 
数值 、 增 加 数值 、 打 印 数值 的 时 候 是 被 保护 的 ( 处 于 加 锁 的 状态 中 )， 就 是 没有 两 个 线程 可 以 同 
时 运行 。 要 实现 这 个 目标 ， 我 们 将 使 用 锁 对 象 的 两 个 方法 : 获取 和 释放 锁 。 


示例 代码 如 下 : 






































#!/usr/bin/python 
import thread 
import time 


global_value = 0 


def run(threadName, lock): 
global global_value 
lock.acquire() 
local. copy = global. value 
print "£s with value %s" % (threadName, local, copy) 
global value = local copy + 1 
lock.release() 


lock = thread.allocate lock() 


for i in range(10): 
thread.start new thread(run, ("Thread-" + str(i), lock)) 


# 我 们 需要 让 程序 持续 运行 ， 否 则 线程 就 会 消失 
while 1: 
pass 


现在 ,输出 结果 就 合理 了 : 




















value 
value 
value 
value 
value 4 


value 
value 
value 
value 
Thread- value 














输出 结果 清晰 ， 打印 格式 也 正常 ,我 们 成 功 地 实现 了 全 局 变量 的 递增 。 这 两 处 改善 都 是 通过 
线程 锁 机 制 解决 的 。 当 增加 全 局 变量 global_value 的 数值 时 ,线程 锁 会 阻止 其 他 线程 (没有 获 
得 锁 的 线程 ) 执行 这 部 分 代码 ( 把 glopbal_value 变 量 的 值 读 取 到 局 部 变量 中 ， 增 加 1 )。 因 此 ， 
当 线 程 锁 是 激活 状态 时 ,只 有 获取 锁 的 线程 能 够 运行 这 几 行 代 码 。 当 锁 释 放 之 后 , 线程 队列 中 下 
一 个 线程 才 进行 同样 的 操作 。 前 一 行 代码 会 返回 当前 线程 的 标识 : 
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get_ident 

这 是 一 个 非 0 整 数 ， 没 有 其 他 含义 ， 就 是 表示 当前 线程 列表 中 的 活动 线程 。 这 个 整数 会 在 一 
个 线程 结束 或 退出 时 被 收回 , 因此 在 程序 的 生命 周期 中 它 不 是 唯一 的 。 下 面 的 代码 在 创建 新 线程 
时 设置 或 返回 线程 栈 的 容量 : 





























stack_size 

这 个 参数 是 可 选项 (“ 这 个 ”表示 栈 的 容量 )。 这 个 容量 可 以 是 0, 或 者 至 少 是 32.768 (32KB )。 

由 操作 系统 决定 ,设置 栈 的 容量 还 可 能 有 其 他 限制 。 因 此 , 在 使 用 这 个 参数 之 前 ， 要 查看 一 下 操 
系统 说 明 书 。 















































作 
虽然 Python 3 不 在 本 书 的 讨论 范围 之 内 ， 但 是 thread 模 块 在 Python 3 中 已 经 
> 改名 为 _thread。 


5.3.2 FA threading 模块 创建 线程 


这 是 目前 Python 中 处 理 线程 时 普遍 推荐 的 模块 。 这 个 模块 提供 了 更 完善 、 更 高 级 的 接口 。 不 
过 它 也 增加 了 代码 的 复杂 性 ， 因 为 简单 的 _thread 模 块 现在 没有 了。 


这 种 情况 符合 Uncle Ben 的 名 言 : 























越 强大 越 复杂 。( With great power comes great complexity. ) 


























开 个 玩笑 , 其 实 threading 模 块 是 把 线程 的 内 容 封装 在 一 个 类 中 , 这 样 我 们 实例 化 这 个 类 就 
可 以 使 用 线程 。 


我 们 可 以 创建 一 个 这 个 模块 提供 的 Thread 类 的 子 类 ( https://docs.python.org/2/library/ 
thread.html )。 另 外 。 我 们 还 可 以 在 处 理 非常 简单 的 问题 时 直接 实例 化 这 个 类 。 让 我 们 看 看 前 面 的 
示例 如 何 转换 成 threading 模 块 的 形式 : 

#!/usr/bin/python 


import threading 
import time 

















global_value = 0 


def run(threadName, lock): 
global global_value 
lock.acquire() 
local. copy = global. value 
print "£s with value %s" $ (threadName, local, copy) 
global, value = local. copy + 1 
lock.release() 
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o 


lock - threading.Lock() 
for i in range(10): 


t = threading.Thread(target-run, args-("Thread-" + str(i), lock)) 
t.start () 


对 于 更 复杂 的 情况 ， 如 果 要 更 好 地 封装 线程 的 行为 ， 我 们 可 能 需要 创建 自己 的 线程 类 。 
当 使 用 子 类 方法 写 自己 的 线程 类 时 ， 有 一 些 事情 是 需要 考虑 的 。 











a 它们 需要 扩展 threading .Thread 类 。 

a 它们 需要 改写 run 方 法 ， 也 可 以 使 用 _init 方法 。 

O 如 果 你 改写 构造 需 ， 需 要 在 一 开始 调用 父 类 的 构造 器 (Thread. init. ) 

口 当 线 程 的 run 方 法 停止 或 抛 出 未 处 理 的 异常 时 ， 线 程 将 停止 ， 因 此 要 提前 设计 好 方法 。 
口 可 以 用 构造 器 方法 的 name 参 数 命 名 你 的 线程 。 


即使 你 要 重 写 run 方 法 ， 里 面包 含 了 线程 的 主要 逻辑 ， 在 线程 的 方法 被 调用 时 你 也 不 能 掌控 
不 过 你 可 以 调用 start 方 法 ， 这 个 方法 将 创建 一 个 新 线程 ， 然 后 在 上 下 文中 调用 run 方 法 。 
下 面 让 我 们 看 一 个 简单 的 示例 ， 它 演示 了 线程 处 理 中 的 一 个 常见 问题 。 


import threading 
import time 














class MyThread (threading.Thread): 


def __init__(self, count): 
threading.Thread.__init__(self) 
self.total = count 





def run(self): 
for i in range(self.total): 


time.sleep (1) 
print "Thread: $s - %s" $ (self.name, i) 


t = MyThread(4) 
t2 - MyThread(3) 


t.start() 
t2.start() 


print "This program has finished" 


代码 输出 结果 如 下 所 示 : 





This program has finished 
Thread: Thread-2 - 0 
Thread: Thread-1 - 0 
Thread: Thread-2 - 1 


Thread: Thread-1 - 
Thread: Thread-2 - 

Thread: Thread-1 - 
Thread: Thread-1 - 


注意 上 图 中 高 亮 的 部 分 , 程序 在 其 他 内 容 出 现 之 前 先 发 送 退出 消息 。 TEX IP ANT AD 
题 。 但 是 ,在 下 面 这 种 情况 下 就 有 问题 了 : 


























+. 

BS “opent output-file.txt", "w+") 
t = MyThread(4, f) 

t2 = = Mythread(3 £) 

testart) 

t2.start() 

f.close() # 关闭 文件 处 理 器 


() 
print "This program has finished" 


注意 上 面 的 代码 会 报错 ， 因 为 在 线程 使 用 文件 之 前 ， 会 先 关闭 文件 处 理 器 。 
NS 如 果 我 们 想 避 免 这 种 情况 ， 就 需要 使 用 join 方法 ， 这 样 就 可 以 中 断 线 程 调用 ， 
直到 目标 线程 运行 结束 为 止 。 











在 我 们 的 示例 中 ， 如 果 从 主线 程 中 调用 join 方法 ， 它 可 以 保证 在 两 个 线程 执行 完成 之 前 ， 
程序 不 会 运行 主线 程 命令 。 我 们 需要 确保 在 两 个 线程 都 启动 之 后 再 使 用 join 方法 。 但 是 ,我们 
可 以 按 顺序 依次 结束 它们 ; 

t.Start(í) 

t2.start() 

# 两 个 线程 同时 运行 ， 停 止 主线 程 

t.join() 

t2.join() 

f.close() # 两 个 线程 都 已 经 完成 ， 关 闭 文件 处 理 器 

print "This program has finished" 

这 个 方法 还 支持 一 个 可 选 参数 : 时 限 ( 浮 点 数 或 None )， 以 秒 为 单位 。 但 是 ，join 方 法 的 返 
回 值 是 None。 因 此 ， 要 检查 操作 是 否 已 超时 ， 需 要 在 join 方 法 返回 之 后 检查 线程 是 否 还 处 于 激 
活 状态 。 如 果 线 程 是 激活 状态 ， 操 作 就 超时 了 。 


现在 再 看 另外 一 个 示例 , 它 检查 一 组 网 站 的 请 求 状态 码 。 这 个 脚本 需要 写 几 行 代 码 以 遍历 一 
个 网 站 列表 ， 收 集 网 站 相应 的 状态 码 : 









































import urllib2 


sites - [ 
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"http://www.google.com", 
"http://www.bing.com", 
"http://stackoverflow.com", 
"http://facebook.com", 
"http://twitter.com" 





def check http status (url): 
return urllib2.urlopen(url).getcode() 


http status - () 
for url in sites: 
http status[url] = check http status (url) 


for url in http status: 
print "$s: $s" $ (url, http status[url]) 


如 果 用 Linux 的 时 间 命 令 行 工具 运行 代码 ， 就 可 以 获得 程序 运行 的 时 间 : 


























$time python non_threading httpstatus.py 


输出 结果 如 下 所 示 : 


http://www.google.com: 200 
http://facebook.com: 200 
http://stackoverflow.com: 200 
http://www.bing.com: 200 
http://twitter.com: 200 


real Om3 .936s 
user Om0.060s 
sys Omd.018s 


现在 ， 检 查 代码 看 看 我 们 发 现 了 什么 问题 ， 我 们 显然 可 以 把 IO 操作 函数 ( check_http_ 
status ) 转变 为 一 个 线程 来 优化 代码 。 我 们 可 以 并 发 地 检查 所 有 网 站 的 状态 ， 不 需要 在 一 个 检 
查 完成 之 后 再 运行 另 一 个 检查 : 














import urllib2 
import threading 


sites = [ 
http://www.google.com", 
http: //www.bing.com", 
http://stackoverflow.com", 
http://facebook.com", 
http://twitter.com" 








] 


class HTTPStatusChecker (threading.Thread) : 





def __init__(self, url): 
threading.Thread. init (self) 
self.url - url 
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self.status = None 


def getURL(self): 
return self.url 


def getStatus(self): 
return self.status 


def run(self): 
self.status = urllib2.urlopen(self.url).getcode() 


threads = [] 

for url in sites: 

t = HTTPStatusChecker (url) 
t.start() # 启动 线程 
threads.append(t) 


* 让 主线 程 join 其 他 子 线程 ， 

E 这 样 我 们 就 可 以 在 子 线程 完成 后 打印 全 部 的 结果 
for t in threads: 

t.join() 





for t in threads: 
print "%s: $s" $ (t.url, testatus) 


同样 使 用 time 命 令 运 行 新 脚本 : 
$time python threading httpstatus.py 


我 们 将 获得 下 面 的 输出 结果 : 


au 





://www.google.com: 200 
://www.bing.com: 200 
://stackoverflow.com: 200 
://facebook.com: 200 


://twitter.com: 200 


0m1.576s 
0m0.068s 























显然 ,线程 版 的 程序 更 快 。 从 图 中 对 比 发 现 ,， 它 的 速度 几乎 是 上 一 版 的 三 倍 ,性 


显著 。 





改善 十 分 


证 
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通过 Event 对 象 实 现 线程 间 通 信 
虽然 线程 通常 是 作为 独立 运行 或 并 行 的 任务 ， 但 是 有 时 也 会 出 现 线程 间 通 信 的 需求 。 


threading 模 块 提 供 了 事件 (event ) 对 象 实现 线程 间 通 信 ( https://docs.python.org/2/library/ 
threading.html#event-objects ). 它 包含 一 个 内 部 标记 ( internal flag ), 以 及 可 以 使 用 set () 或 clear () 
方法 的 调用 线程 (caller thread )。 























I 
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Event 类 的 接口 很 简单 ， 它 支持 的 方法 如 下 。 


Qis_set: 如 果 事 件 设 置 了 内 部 标记 ， 就 返回 rrue。 

O sec: 把 内 部 标记 设置 为 True。 它 可 以 唤醒 等 待 被 设置 标记 的 所 有 线程 。 调 用 wait () 方 
法 的 线程 将 不 再 被 阻塞 。 

口 clear: 重 置 内 部 标记 。 调 用 wait () 方 法 的 线程 ， 在 调用 set ( ) 方 法 之 前 都 将 被 阻塞 。 
O wait: 在 事件 的 内 部 标记 被 设置 好 之 前 ,使 用 这 个 方法 会 一 直 阻 塞 线 程 调用 。 这 个 方法 
支持 一 个 可 选 参 数 ， 作 为 等 待 时 限 ( timeout )。 如 果 等 待 时 限 非 0， 则 线程 会 在 时 限 内 被 
一 直 阻塞 。 


让 我 们 用 线程 事件 对 象 来 演示 一 个 简单 的 线程 通信 示例 , 它们 可 以 轮流 打印 字符 串 。 两 个 线 


程 将 共享 同一 个 事件 对 象 。 在 while 循 环 中 ， 每 次 循环 时 ， 一 个 线程 设置 标记 ， 另 一 个 线程 重 置 
标记 。 每 一 次 动作 ( set 和 clear )， 它 们 都 会 打印 正确 的 字符 : 









































import threading 
import time 


class ThreadA(threading.Thread): 


def __init__(self, event): 
threading.Thread. init (self) 
self.event - event 


def run(self): 
count = 0 
while count < 5: 
time.sleep (1) 
if self.event.is set(): 
print "A" 
self.event.clear() 
count += 1 





class ThreadB (threading. Thread) : 


def __init__(self, evnt): 
threading.Thread. init (self) 
self.event - evnt 


def run(self): 
count = 4 
while count < 5: 
time.sleep (1) 
if not self.event.is_set(): 
print "B" 
self.event.set () 
count += 1 





event = threading.Event () 


ta 
tb 


Wo 


ta.start() 
tb.start() 


总 的 来 说 ， 


ThreadA (event) 
ThreadB (event) 





下 表 内 容 可 以 揭示 Python 多 线程 的 使 用 时 机 。 





使 用 线程 不 用 线程 





频繁 的 IO 操作 程序 
并 行 任务 可 以 通过 并 发 解决 程序 必须 利 月 





GUI 开 发 


5.4 多 进程 


如 前 所 述 ， 























threading 模 块 并 不 能 真正 解决 。 


不 过 Python 为 多 线程 提供 了 一 个 替代 方案 : 多 进程 。 在 多 进程 里 ,线程 被 换 成 了 一 个 个 子 进 
程 。 每 个 进程 都 运作 各 自 的 GIL( 这 样 Python 就 可 以 并 行 开启 多 个 进程 ， 没 有 数量 限制 )。 






































大 量 CPU 操 作 程 序 


日 多 核心 操作 系统 




















于 GIL 的 存在 ，Python 的 多 线程 并 没有 实现 真正 的 并 行 。 因 此 ， 一些 问 题 使 用 




















需要 明确 的 是 , 线程 都 是 同一 个 进程 的 组 成 部 分 , 它们 共享 同一 块 内 存 、 存 储 空间 和 计算 资 
源 。 而 进程 却 不 会 与 生成 它们 的 父 进 程 共 享 内 存 ， 因 此 进程 间 的 通信 比 线程 间 通 信 更 加 复杂 。 
多 进程 相 比 多 线程 的 优 缺 点 如 下 表 所 示 。 
4 85 劣 ” 势 
可 以 使 用 多 核 操作 系统 更 多 的 内 存 消耗 
进程 使 用 独立 的 内 存 空 间 ， 避 免 竟 态 问题 进程 间 的 数据 共享 变 得 更 加 困难 











子 进程 容易 中 断 (killable) 











程 困 难 














避 开 GIL 的 限制 (虽然 只 是 在 CPython 里 才 存在 的 问题 ) 








Python 多 进程 





IPC (Interprocess communication, 











进程 间 通 信 ) 处 至 








E 比 线 


multiprocessing 模 块 ( https://docs.python.org/2/library/multiprocessing.html ) 提供 了 一 个 
Process2É, 它 其 实 相 当 于 多 线程 模块 中 的 threading .Thread 类 。 因 此 , 把 多 线程 代码 迁移 到 





多 进程 还 是 比较 
让 我 们 快速 


简单 的 ， 因 为 代码 的 基本 结构 是 不 变 的 。 


演示 一 个 多 进程 的 示例 : 


#!/usr/bin/python 





import multiprocessing 


def run(pname): 
print pname 


for i in range(10): 
p = multiprocessing.Process(target=run, args=("Process-" + str(i), )) 
p.start() 
p.join() 


上 面 的 代码 很 简单 ， 但 是 从 中 可 以 看 出 多 进程 和 多 线程 代码 非常 像 。 























由 于 Windows 生 成 子 进程 的 机 制 与 Linux 不 同 , 所 以 如 果 在 Windows 系 统 上 运 


行 上 面 的 代码 ， 请 把 multiprocessing 放 到 if name == ' main 





下 面 。 代 码 如 下 所 示 : 


#!/usr/bin/python 
import multiprocessing 


CAN def run(pname): 
A print pname 


if name == ' gain ': 





for i in range(10): 
p = multiprocessing.Process(target-run, 
args-("Process-" « str(i), )) 
p.start() 
p.join() 


1. 进程 退出 状态 




















当 进 程 结束 (或 中 断 ) 的 时 候 , 会 产生 一 个 退出 码 Cexitcode ), 它 是 一 个 数字 ， 表 示 执 行 











的 结果 。 不 同 的 数字 分 别 表示 进程 正常 完结 ， 异 常 完结 ， 或 是 由 男 一 个 进程 中 断 的 状态 。 
有 具体 有 以 下 三 种 情况 


口 等 于 0 表示 正常 完结 
口 大 于 0 表示 异常 完结 
口 小 于 0 表示 进程 被 男 一 个 进程 通过 -1*exit_code 信 号 终结 


下 面 的 代码 用 于 演示 如 何 读 取 和 使 用 退出 码 ， 具 体 情况 还 要 具体 分 析 。 


import multiprocessing 
import time 





def first(): 
print "There is no problem here" 





def second(): 
raise RuntimeError("Error raised!") 


def third(): 
time.sleep (3) 
print "This process will be terminated" 


workers = [multiprocessing.Process(target-first), multiprocessing. Process ( 
target=second), multiprocessing. Process (target=third) ] 


for w in workers: 
w.start () 


workers [-1].terminate() 
for w in workers: 


w.join() 


for w in workers: 
print w.exitcode 


代码 输出 结果 如 下 图 所 示 。 





There is no problem here 
Process Proces 


", line 258, in bootstrap 


.py", line 114, in run 





se get (* 
"multiprocessina ^ line 10, in second 
raise Runtimec.ior("Error ra. d 
RuntimeErrz.: Error raised 




















注意 第 三 个 子 进程 的 print 语 句 没 有 执行 。 这 是 因为 在 sleep 方 法 结束 之 前 进程 已 经 被 中 止 
了 。 还 有 一 点 需要 注意 的 是 ， 两 个 独立 的 for 循 环 处 理 三 个 子 进程 : 一 个 启动 进程 ， 男 一 个 通过 
join 方 法 连接 进程 。 如 果 我 们 在 开启 每 个 子 进程 时 都 执行 join() 方 法 (而 不 是 没 使 用 join O 


就 把 第 三 个 进程 中 断 )， 那 么 第 三 个 进程 就 不 会 失败 。 于 是 第 三 个 子 进 程 返回 的 退出 码 也 将 是 0， 
因为 和 多 线程 一 样 ，join () 方 法 在 目标 进程 完结 之 前 会 阻塞 子 进 程 的 调用 。 


进程 池 


多 进程 模块 还 提供 了 Pool 类 ( https://docs.python.org/2/library/multiprocessing.html#module- 
multiprocessing.pool )， 表 示 一 个 进程 池 ， 里 面 装 有 子 进 程 ， 可 以 通过 不 同 的 方法 执行 一 组 任务 。 


Pool 类 的 主要 方法 如 下 。 
口 apply: 这 个 方法 在 独立 的 子 进 程 中 运行 一 个 函数 。 它 还 会 在 被 调用 函数 返回 结果 之 前 阻 
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塞 进 程 。 
U apply_asyne: 这 个 方法 会 在 独立 子 进 程 中 异步 地 运行 一 个 函数 ， 就 是 说 进程 会 立即 返 
回 一 个 ApplyResult 对 象 。 要 获得 真实 的 返回 值 ， 需 要 使 用 get () 方 法 。get () 在 异步 
执行 的 函数 结束 之 前 都 会 被 阻塞 。 
O map: 这 个 方法 对 一 组 数值 应 用 同一 个 函数 。 它 是 一 个 阻塞 动作 ， 所 以 返回 值 是 每 个 值 经 
过 函数 映射 的 列表 。 
上 面 的 方法 提供 了 不 同 的 方式 遍历 你 的 数据 ， 可 以 是 异步 、 同 步 ， 也 可 以 是 逐个 处 理 。 有 具体 
方法 根据 需求 进行 选择 。 


3. 进程 间 通 信 





















































之 前 已 经 提 过 ， 进 程 间 通 信 的 方式 不 像 线程 间 通 信 那 么 简单 。 但 是 ， Python 提供 了 一 些 工 具 
帮助 我 们 解决 问题 。 

















Queue 类 是 一 个 既 线程 安全 又 进程 安全 的 先进 先 出 (FIFO, first in first out, https://docs. 
python.org/2/library/multiprocessing.html#exchanging-objects-between-processes ) 数据 交换 机 制 。 
multiprocessing 提 供 的 oueue 类 基本 是 oueue .Queue 的 克隆 版 本 ， 因 此 两 者 API 基 本 相同 。 


下 面 的 代码 是 演示 两 个 进程 利用 oueue 进 行 通信 的 示例 : 























from multiprocessing import Queue, Process 
import random 


def generate(q): 
while True: 
value = random.randrange (10) 
q.put (value) 
print "Value added to queue: %s" % (value) 


def reader(q): 
while True: 
value = q.get() 
print "Value from queue: %s" % (value) 


queue = Queue () 
pl = Process(target=generate, args=(queue, ) ) 
p2 = Process(target=reader, args=(queue, ) ) 


pl.start () 
p2.start () 


(1) Pipe 方 法 
Pipe (管道 ) 方法 (https://docs.python.org/2/library/multiprocessing.html#exchanging-objects- 
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between-processes ) 为 两 个 进程 提供 了 一 种 双向 通信 的 机 制 。Pipe () 函数 返回 一 对 连接 对 象 ， 
个 对 象 表示 管道 的 一 端 。 每 个 连接 对 象 都 有 senad () 和 recv () 方 法 。 

下 面 的 代码 表示 一 个 简单 的 Pipe 用 法 ,与 前 面 的 oueue 示 例 类 似 。 这 个 脚本 会 创建 两 个 进程 : 
一 个 进程 产生 随机 数 通 过 管道 发 送出 去 ， 另 一 个 进程 接收 数据 ， 然 后 写 和 文件 中 : 











from multiprocessing import Pipe, Process 
import random 


def generate (pipe): 
while True: 
value = random.randrange (10) 
pipe.send (value) 
print "Value sent: %s" % (value) 


def reader(pipe): 
f = open("output.txt", "w") 
while True: 
value = pipe.recv() 
f.write(str(value) ) 
print wor 


input p, output p = Pipe() 
pl = Process(target-generate, args-(input p,)) 
p2 - Process(target-reader, args-(output p,)) 


pl.start () 
p2.start () 





(2) Event 

多 进程 中 也 有 事件 Event， 它 们 的 工作 方式 与 多 线程 类 似 。 开 发 者 唯一 需要 记 住 的 是 ， 事 件 
对 象 不 能 被 传递 到 子 进程 函数 中 。 如 果 你 那么 做 ， 就 会 导致 运行 时 错误 ， 信 号" 对象 只 能 通过 继 
承 机 制 在 进程 间 共 享 。 也 就 是 说 ， 你 不 能 写 如 下 所 示 的 代码 : 




















from multiprocessing import Process, Event, Pool 
import time 


event = Event() 
event.set() 


def worker(i, e): 
if e.is set(): 





(D semaphore， 操 作 系统 概念 。 一 一 译 者 注 
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time.sleep(0.1) 


2 


print "A - %s" $ (time.time() ) 


e.clear() 
else: 
time.sleep(0.1) 
print "B - %s" $ (time.time()) 
e.set () 


pool = Pool (3) 
pool.map(worker, [(x, event) for x in range(9)]) 


而 是 应 该 这 样 写 : 


from multiprocessing import Process, Event, Pool 
import time 


event = Event () 
event .set () 


def worker(i): 

if event.is set(): 
time.sleep(0.1) 
print "A - %s" $ (time.time()) 
event.clear() 

else: 
time.sleep(0.1) 
print "B - %s" $ (time.time()) 
event.set() 





pool - Pool(3) 
pool.map(worker, range(9)) 


5.5 小 结 


本 章 介绍 了 两 种 多 任务 处 理 方式 〈 多 进程 ， 多 线程 )， 以 及 各 自 的 特性 和 优 缺 点 ， 而 具体 如 
何 选择 完全 由 开发 者 自行 决定 。 由 于 它们 适用 于 不 同 的 场景 ,所 以 并 非 一 个 绝对 比 另 一 个 好 , 虽 
然 它们 看 起 来 像 是 在 解决 同样 的 问题 。 

这 一 章 需要 掌握 的 重点 是 之 前 提 到 的 两 点 : 两 种 方法 的 主要 特性 , 以 及 两 种 方法 的 使 用 时 机 。 


下 一 章 将 继续 介绍 优化 工具 。 这 一 次 ， 我们 将 介绍 Cython ( 一 种 编译 器 ， 可 以 把 Python 代码 
编译 成 C 语 言 ) 和 PyPy (一 种 Python 实 现 的 解释 器 ,没有 CPython 的 GIL )。 
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在 学 习性 能 优化 的 路 上 , 我 们 从 第 4 章 开始 ,首先 介绍 了 一 些 优化 方法 ,然后 在 第 5 章 中 深入 
研究 了 两 种 重要 的 优化 策略 : 多 线程 和 多 进程 。 我们 还 对 两 种 策略 的 用 法 以 及 使 用 场景 进行 了 详 
细 的 介绍 。 


归根 到 底 ， 我 们 都 是 在 优化 Python 众多 实现 中 的 一 种 〈CPython )。 然 而 还 有 其 他 实现 方式 ， 
在 这 一 章 我 们 将 介绍 其 中 的 两 种 。 





























O 我 们 将 介绍 PyPy, 它 是 Python 解释 器 的 另 一 个 版 本 , 本 书 一 直 在 使 用 。 相 比 标准 版 Python , 
它 有 一 些 优势 。 

口 我 们 还 会 介绍 Cython， 一 种 优化 过 的 静态 编译 器 ， 可 以 让 我 们 写 静 态 代 码 ， 并 轻松 借助 C 
和 C++ 的 力量 。 


两 种 方法 都 可 以 让 开发 者 以 更 高 效 的 方式 运行 代码 ,当然 也 得 考虑 代码 的 具体 特点 。 对 于 每 
种 方法 ， 我 们 都 会 详细 介绍 其 特性 、 安 装 方法 ， 以 及 使 用 它们 编写 的 代码 示例 。 

















6.1 PyPy 


和 CPython 是 用 C 语 言 写成 的 Python 的 标准 实现 一 样 ，PyPy 是 Python 的 另 一 种 实现 ， 有 2.x 版 
本 和 3.x 版 本 。 它 用 RPython 模 拟 语言 的 功能 ，RPython 是 一 种 静态 类 型 的 Python 版 本 。 


PyPy 项 目 (http://pypy.org/ ) 是 另 一 个 旧 项 目 Psycho 的 延续 , Psycho 是 一 种 用 C 语 言 写 的 Python 
的 JIT 编 译 器 。 它 在 32 位 英特尔 处 理 器 上 运行 得 很 不 错 ， 但 是 一 直 没 有 更 新 。 其 最 新 稳定 版 还 是 
在 2007 年 发 布 的， 现在 已 经 废弃 了 。PyPy 在 2007 年 发 布 了 1.0 版 。 虽 然 它 一 开始 只 算是 一 个 研究 
性 的 项 目 ,但 是 持续 了 很 多 年 ， 最 终 在 2010 年 发 布 了 1.4 版 。 这 一 版 发 布 之 后 ， 用 PyPy 系 统 可 以 
开发 正式 的 产品 ， 并 且 可 以 与 Python 2.5 版 兼容 ， 这 令 人 们 对 PyPy 的 信心 不 断 增强 。 


PyPy 最 新 的 稳定 版 是 2014 年 6 月 发 布 的 2.$ 版 ， 与 Python 2.7 兼 容 。 同 时 还 发 布 了 PyPy3 测 试 版 
本 ， 可 以 与 Python 3.x 版 本 兼容 。 


我 们 选择 PyPy 作 为 优化 脚本 的 可 靠 方法 ， 理 由 如 下 。 
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Q 速度 : PyPy 的 一 个 主要 特性 是 对 普通 Python 代码 运行 速度 的 优化 。 这 是 由 于 它 使 用 JIT 
( Just-in-time ) 编译 器 。 在 静态 编译 代码 时 它 提供 了 一 种 灵活 性 ， 可 以 在 运行 时 根据 运行 
环境 ( 处 理 器 、 操 作 系 统 版 本 等 ) 进行 调整 。 另 一 方面 ， 静 态 编译 程序 可 能 需要 一 个 可 
执行 或 者 不 同 条 件 的 组 合体 。 

O AF: PyPy 执 行 脚本 时 消耗 的 内 存 要 比 普通 Python 小 。 

Q 沙 盒 (sandboxing): PyPy 提 供 了 沙 盒 环境 , 在 调用 C 语 言 库 的 时 候 使 用 。 这 种 机 制 会 与 一 
个 处 理 实际 情况 的 外 部 进程 通信 。 虽 然 这 种 机 制 很 好 ， 但 还 只 是 一 个 原型 ， 需 要 一 些 处 
理 才 能 正常 使 用 。 

O 无 栈 (stackless ): PyPy 还 提供 了 与 Stackless Python ( http://www.stackless.com/ ) 相似 的 特 

性 。 有 人 甚至 认为 PyPy 比 后 者 更 加 强大 和 灵活 。 

































































6.1.1 安装 PyPy 
有 一 些 方法 可 以 安装 PyPy。 


口 你 可 以 直接 从 网 页 上 (http://pypy.org/download.html#default-with-a-jit-compiler ) 下 载 可 执 
行文 件 。 要 下 载 正 确 的 版 本 ， 请 根据 页 面 下 载 链 接 的 操作 系统 标识 对 号 入座。 如 果 下 载 
的 系统 标识 没 对 上 ， 很 可 能 就 装 不 上 了 。 








may have more luck trying out Squeaky's portable Linux binaries. 


请 根据 自己 的 操作 系统 选择 版 本 





Python2.7 compatible PyPy 2.5.1 











© Linux x86 binary (32bit, tar.bz2 built on Ubuntu 12.04 - 14.04) (see |[1] 


o Linux x86-64 binary (64bit, tar.bz2 built on Ubuntu 12.04 - 14.04) (see 


o ARM Hardfloat Linux binary (ARMHF/gnueabihf, tar.bz2, Raspbian) (see 






































o ARM Hardfloat Linux binary (ARMHF/gnueabihf, tar.bz2, Ubuntu Raring) (see 


o ARM Softfloat Linux binary (ARMEL/gnueabi, tar.bz2, Ubuntu Precise) (see | [1] 


o Mac OS/X binary (64bit) 























o Windows binary (32bit) (you might need the V5 2008 runtime library installer 
vcredist xB6.exe.) 


9 All our downloads, including previous versions. We also have a mirror, but please use only if 


you have troubles accessing the links above 














如 果 你 使 用 的 是 Linux 发 行 版 或 OS X 系 统 ， 可 以 先 看 看 系统 的 安装 包 仓 库 里 是 否 有 PyPy 
安装 包 , 通常 , 很 多 系统 都 有 PyPy 包 , 比如 Ubuntu、Debian、Homebrew、MacPorts、Fedora、 
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Gentoo, 、Arch。 如 果 你 用 的 是 Ubuntu 系统 ， 可 以 通过 下 面 的 命令 安装 : 








$ sudo apt-get install pypy 


Q 最 后 一 种 方法 是 下 载 源 代 码 ， 然 后 自己 编译 。 这 可 能 比 直接 下 载 可 执行 文件 安装 要 麻烦 。 
但 是 ， 如 果 操 作 正 确 ， 就 可 以 保证 你 安装 的 PyPy 完 全 与 你 的 系统 兼容 。 












































事先 提 个 醒 , 从 源 代码 编译 听 起 来 像 是 很 简单 的 事情 , 但 是 真正 做 起 来 是 很 
花 时 间 的 。 在 一 人 台 订 、8G 内 存 的 电脑 上 ， 编 译 过 程 需 要 消耗 1 个 小 时 左右 。 编 译 
内 容 如 下 图 所 示 。 


Timings: 


i annotate 
P i rtype_lltype 


pyjitpl_lltype 
backendopt_lltype 
stackcheckinsertion_lltype 


database < 
source_c 
compile_c 





6.1.2 JIT 编译 器 
这 是 PyPy 的 主要 特性 之 一 ， 是 PyPy 可 以 在 运行 速度 上 远 胜 普通 Python ( CPython ) 的 关键 。 
根据 PyPy 官 方 网 站 提供 的 性 能 测试 数据 ， 虽 然 不 同 的 任务 会 有 差异 ， 但 是 一 般 情况 下 PyPy 
译 需 的 速度 要 比 CPython 快 7 倍 。 
通常 ， 普 通 版 Python 的 编译 需 在 程序 第 一 次 运行 之 前 ， 要 把 全 部 源 代 码 都 转换 成 机 器 码 。 但 
是 ,我 们 可 以 不 这 么 做 。 这 是 标准 编译 器 的 处 理 步 又 ( 预 处 理 并 转换 源 代 码 ， 然 后 组 合并 链接 库 
函数 )。 
JIT 编 译 是 指 源 代码 编译 是 在 运行 时 同时 进行 的 ， 而 不 像 标 准 编译 右 那 样 在 运行 前 进行 。 代 
码 的 处 理 方式 分 成 两 步 。 
(D 首先 ， 源 代码 被 翻译 成 一 种 中 间 语 言 代 码 。 在 一 些 编程 语言 中 ， 比 如 Java 里 ， 称 为 字 节 码 。 
(2) 有 了 字 节 码 之 后 ,我们 开始 把 它 编 译 并 翻译 成 机 器 码 ， 但 是 按 需 翻译 。JIT 编 译 右 的 特性 
之 一 就 是 ， 只 编译 需要 运行 的 那 部 分 代码 ， 不 是 一 次 性 全 编译 。 
第 二 步 就 是 JIT 编 译 器 与 其 他 解释 型 语言 ( 如 CPython ) 在 字 节 码 被 解释 而 不 是 被 编译 时 的 根 
本 差异 。 另 外 ，JIT 编 译 器 还 会 缓存 已 编译 的 代码 ， 这 样 在 下 一 次 编译 时 可 以 避免 多 余 的 消耗 。 
了 解 这 些 特性 之 后 ， 很 明显 ， 程 序 如 果 要 利用 JIT 编 译 吉 ， 就 必须 运行 几 秒 钟 ， 以 便 指 令 组 
存 起 作用 。 但 是 , 实际 效果 可 能 与 期 待 的 相反 ， 因 为 编译 消耗 的 时 间 是 开发 者 真正 会 注意 到 的 唯 
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一 时 间 差 异 o 

















使 用 JIT 编 译 器 的 一 个 主要 优势 是 ， 被 执行 的 程序 可 以 在 具体 的 操作 系统 上 优化 机 器 码 ( 
括 CPU 、 操 作 系 统 等 )。 因 此 它 实现 了 一 种 普通 静态 编译 程序 ( 甚至 解释 型 程序 ) 无 法 获得 的 灵 
活性 。 














6.1.3 W 


虽然 PyPy 的 沙 盒 模型 仍然 被 认为 只 是 一 个 原型 , 但 是 我 们 简要 介绍 其 工作 原理 , 以 帮助 读者 
图 解 其 特性 。 


Md 




















沙 盒 可 以 理解 成 是 一 个 安全 运行 环境 ,不 安全 的 Python 代码 也 可 以 在 其 中 运行 ,不必 担 心 其 
会 损坏 整个 宿主 系统 。 














PyPy 的 沙 盒 通过 一 个 双 进 程 模型 实现 。 





(1) 一 方面 ， 我 们 有 一 个 自 定义 的 PyPy 专 门 编译 沙 盒 模型 中 的 函数 。 也 就 是 说 任何 库 或 系统 
用 (例如 IO 操作 )， 都 会 在 一 个 staout 里 排列 好 等 待 响应 。 

(2) 另 一 方面 , 我 们 有 一 个 容器 进程 , 可 以 用 PyPy 或 CPython 运 行 。 这 个 进程 主要 是 响应 PyPy 
内 部 进行 的 库 和 系统 调用 。 





si 











控制 器 容器 
l 依次 排列 的 外 部 
宿主 机 操作 系统 程序 库 调用 


自 定义 的 PyPy 


依次 排列 的 外 部 


程序 库 响应 e 
调用 





上 图 显示 的 是 ， 一 段 Python 代码 在 沙 盒 模式 中 运行 ， 并 执行 一 个 外 部 库 调 用 的 过 程 。 








就 是 决定 使 用 哪 种 虚拟 化 的 进程 。 例 如 ， 创 建文 件 句 柄 的 内 部 进程 ， 其 实 是 容器 进 
进程 是 沙 盒 进 程 与 操作 系统 的 中 间 层 。 
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需要 注意 的 是 ,前面 介 绍 的 沙 盒 运 行 机 制 和 语言 层面 的 沙 盒 并 不 相同 。 开 发 者 可 以 使 用 整个 
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指令 集 。 因 此 ， 你 可 以 用 代码 实现 一 个 透明 、 安 全 的 系统 ， 可 以 运行 在 标准 、 安 全 的 系统 上 


6.1.4 JIT 优化 

我 们 之 前 介绍 过 , JIT 使 得 PyPy 区 别 于 CPython 的 实现 。 同 样 的 JIT 特 性 也 可 以 让 Python 快速 
运行 。 
直接 使 用 PyPy 运 行 Python 代码 ， 我 们 就 可 以 获得 更 快 的 速度 。 但 是 ， 如 果 我 们 想 更 次 入 地 优 
化 代码 ， 就 需要 考虑 一 些 细节 。 

1. 针对 函数 的 优化 

JIT 可 以 分 析 消 数 热 度 ， 即 判断 哪个 函数 比 其 他 冰 数 “更 热 ”( hotter, 执行 次 数 更 多 )。 因 此 ， 
我 们 需要 更 合理 地 构造 函数 代码 ， 尤 其 是 那些 需要 频繁 调用 的 函数 。 


让 我 们 快速 浏览 一 个 例子 。 下 面 的 代码 对 比 了 两 种 函数 的 使 用 方式 , 一 种 是 将 代码 直接 内 联 
在 其 他 函数 中 , 另 一 种 是 把 代码 封装 成 一 个 单独 的 函数 , 在 其 他 函数 内 调用 。 后 考 消耗 的 时 间 就 
会 包括 函数 查询 和 函数 调用 两 部 分 时 间 : 



























































import math 
import time 


TIMES = 10000000 


init = time.clock() 
for i in range(TIMES): 
value = math.sqrt(i * math.fabs(math.sin(i - math.cos(i)))) 


print "No function: %s" $ ( init - time.clock()) 


def calcMath(i): 
return math.sqrt(i * math.fabs(math.sin(i - math.cos(i)))) 
init - time.clock() 


for i in range(TIMES): 
value - calcMath(i) 
print "Function: $s" $ ( init - time.clock()) 


这 上段 代码 很 简单 ， 但 是 你 会 发 现 用 PyPy 的 第 二 种 方法 更 快 。 普 通 的 CPython 则 结果 相反 ， 
为 没有 对 代码 进行 及 时 优化 ,第 二 种 方法 因为 函数 查询 和 函数 调用 造成 了 额外 的 消耗 但 是 ,PyPy 
和 它 的 IT 又 一 次 证 明 ， 如 果 你 想 按照 它们 的 方式 优化 代码 ， 就 要 放弃 旧 理 念 。 
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fernando@dune:~/workspace/writing/python/chapter6s pypy pypy jit test.py 
No function: -0.910388 JIT 优 化 代码 
Function: -0.909176 ee 


fernando@dune:~/workspace/writing/python/chapter6s python pypy jit test.py 
No function: -4.332882 |  »  — M" 
Function: -4.899006 CPython 标 准 代码 





通过 上 图 可 以 验证 两 条 我 们 一 直 在 强调 的 结论 。 


a 运行 同样 的 代码 时 ，PyPy 比 CPython 要 快 。 
O JIT 会 实时 优化 代码 ， 而 CPython 不 会 








2. 考虑 用 cstringIo 连 接 字符 串 


这 不 是 一 个 小 优化 ,可 同时 适用 于 两 种 代码 优化 。 我 们 已 经 介绍 过 ,在 Python 里 字符 串 是 不 
可 变 对 象 。 因 此 ， 如 果 我 们 想 把 大 量 的 字符 串 连 接 成 一 个 对 象 ， 最 好 是 换 一 种 数据 类 型 ， 而 不 是 
用 原来 的 字符 串 类 型 ， 因 为 用 原来 的 字符 串 连 接 性 能 会 很 差 。 


在 PyPy 里 其 实 也 是 这 样 。 不过, 我们 不 用 列表 对 象 ,， 而 是 用 cstringIo 模 块 (http://pymotw. 
com/2/StringIO/ )， 我 们 将 看 到 通过 它 可 以 获得 更 好 的 性 能 。 


需要 注意 的 是 ， 因 为 PyPy 本 质 上 是 Python 实现 ， 所 以 用 cstringiIo 蔡 换 stringIo 会 让 人 困 
惑 ,毕竟 我 们 要 用 一 个 C 语 言 库 而 不 是 一 个 纯 Python 库 。 这 是 正确 且 有 效 的 做 法 , 因为 一 些 CPython 
常用 的 C 语 言 库 同样 支持 PyPy。 根 据 我 们 的 情况 ,用 下 面 的 例子 对 比 连接 同样 字符 串 的 三 种 方式 
(分 别 用 普通 字符 串 、cstringiIo 模 块 和 列表 ) 的 消耗 时 间 : 
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from cStringIO import StringIO 
import time 


TIMES - 100000 


init - time.clock() 
value = '' 
for i in range(TIMES): 
value += str(i) 
print "Concatenation: %s" % (init - time.clock() ) 





init = time.clock() 

value = StringIO() 

for i in range(TIMES): 
value.write(str(i)) 


) 
$ (init - time.clock()) 


print "StringIO: $s" 
init - time.clock() 
value - [] 


for i in range(TIMES): 
value.append(str(i)) 
finalValue - ''.join(value) 
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print "List: %s" $ (init - time.clock()) 


通过 三 种 方式 的 消耗 时 间 可 以 看 出 , 在 Pypy 中 strinoio 对 象 是 最 快 的 。 它 比 普通 字符 串 快 ， 
甚至 比 用 列表 的 方法 还 要 好 。 


如 果 我 们 再 用 CPython 运 行 代码 ， 就 会 获得 不 同 的 结果 。 最 好 的 运行 结果 还 是 用 列表 。 






























































7 





fernando@dune:~/workspace/writing/python/chapter6$ pypy pypy str vs stringio.py 
Concatenation: -5.557533 CIR EUN" —— Ea 
StringI0: -0.005191 ”一 一 PyPy 对 StringIO 的 优化 效果 更 好 


List: -0.009325 

fernando@dune:~/workspace/writing/python/chapter6$ python pypy str vs stringio.py 
Concatenation: -0.028069 

StringI0: -0.031069 一 一 一 一 CPython 相 反 ， 列 表 join 方 法 的 优化 效果 更 好 

List: -0.021833 





一 | 


上 图 证 实 了 以 上 结论 。 注 意 看 PyPy 的 第 一 种 方法 的 性 能 是 多 么 地 差 。 











3. 禁止 JIT 的 操作 


有 一 些 具体 的 方法 虽然 不 是 直接 优化 的 手段 ， 但 是 使 用 它们 会 消除 PyPy 的 JIT 效 果 。 因 此 ， 
了 解 这 些 方法 非常 重要 。 


下 面 三 种 方法 会 通过 sys 模 块 茜 止 IT 效 果 (通过 目前 的 PyPy 版 本 ; 当然 ,以 后 应 该 会 改变 )。 













































































O getframe: 这 个 方法 会 从 callstack 返 回 一 个 frame 对 象 ， 也 可 以 接受 一 个 从 
callstack 发 出 的 带 深度 参数 的 callstack 对 象 作为 参数 。 这 么 做 性 能 损失 非常 大 ， 非 
万 不 得 已 最 好 别 用 ， 比 如 系统 调试 的 时 候 。 

口 exc_info: 这 个 方法 会 返回 一 个 三 元 素 的 元 组 ,提供 待 处 理 异常 的 相关 信息 。 三 个 元 素 
分 别 是 type、value 和 traceback， 具 体 解 释 如 下 。 


m type: 待 处 理 的 异常 类 型 。 

B value: 异常 参数 。 

m traceback: 跟踪 traceback 对 象 ， 当 异常 被 抛 出 时 ， 里 面 会 封装 一 个 callstack 对 
Ro 


Osettrace: 这 个 方法 可 以 设置 跟踪 函数 。 它 能 让 你 从 Python 内 部 跟踪 Python 代码 。 就 像 
前 面 提 到 的 ， 这 个 方法 也 是 万 不 得 已 时 才 用 ， 因 为 它 在 执行 时 会 禁止 JIT。 

































































6.1.5 ”代码 示例 


作为 这 个 主题 的 最 后 一 个 例子 ， 让 我 们 看 看 great_circle 国 数 的 代码 ( 后面 会 介绍 s X 
圈 (great circle) 计算 用 于 计算 地 球 上 任意 两 点 间 的 距离 。 


这 个 脚本 会 在 for 循 环 中 重复 500 万 次 。 其 实 ， 脚 本 反复 地 调用 同一 个 函数 〈 确切 地 说 是 500 
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万 次 )。 这 种 情况 用 CPython 解 释 器 并 不 合适 ， 因 为 函数 查询 次 数 非常 多 。 


但 是 ， 就 像 我 们 前 面 介绍 过 的 ， 反 复 调用 函数 的 代码 可 以 利用 PyPy 的 JIT 技 术 进 行 优化 。 基 
本 上 可 以 认为 ， 代 码 只 要 用 PyPy 运 行 就 已 经 得 到 了 优化 : 


import math 


def great circle(lon1, lati, lon2, lat2): 
radius = 3956 # 英里 
x - math.pi/180.0 


a - (90.0-1at1)*(x) 
b = (90.0-1at2)*(x) 
theta = (lon2-lon1) * (x) 


c = math.acos((math.cos(a)*math.cos(b)) + 
(math.sin(a) *math.sin(b) *math.cos (theta) )) 
return radius*c 


tont, latl, lon2, dat? = -72.345, 34.323, -61.823, 54.826 
num = 5000000 
for i in range (num): 

great circle(lon1, lati, lon2, lat2) 


前 面 的 内 联 函 数 也 可 以 按照 我 们 之 前 介绍 过 的 方法 进行 优化 。 我 们 可 以 把 great_circle 孙 
数 中 的 一 行 代 码 移出 来 ， 封 装 成 一 个 函数 ， 然 后 再 运行 代码 ， 如 下 所 示 : 


import math 




















def calcualte_acos(a, b, theta): 
return math.acos((math.cos(a)*math.cos(b)) + 
(math.sin(a) *math.sin(b) *math.cos (theta) ) ) 


def great circle(lon1, lat1, lon2, lat2): 
radius = 3956 4 英里 
x - math.pi/180.0 





a - (90.0-1at1)*(x) 
b = (90.0-1at2)*(x) 
theta = (lon2-lon1) * (x) 


c = calcualte_acos(a, b, theta) 
return radius*c 


Iont, lati, lon2, lat2 = -72.345, 34.323, -61.823, 54.826 
num = 5000000 


for i in range (num) : 
great_circle(lonl, lati, lon2, lat2) 


MERMBA HB acos PRU FETE BT EAS ERG, AE PRP EE Be ANY [8] S] — 
了 (里 面 一 共 调 用 了 6 个 trig 函 数 )。 把 这 行 代码 封装 成 函数 之 后 ， 就 可 以 用 JIT 对 函数 调用 进行 
优化 了 。 
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总 之 ， 当 我 们 做 了 一 点 儿 改 变 ， 并 用 PyPy 执 行 代码 之 后 ， 函 数 的 运行 时 间 是 0.5 秒 。 男 一 方 
面 ， 如 果 我 们 在 CPython 里 运行 代码 ， 运 行 时 间 将 是 4.5 秒 ( 在 我 自己 的 电脑 上 运行 )， 相 当地 慢 。 








6.2 Cython 
从 技术 角度 看 ，Cython (http:/cython.org/ ) 并 没有 使 用 另 一 种 与 CPython 不 同 的 解释 器 ， 但 
是 它 可 以 让 我 们 直接 将 Python 代码 编译 成 C 语 言 ( CPython 不 会 这 么 做 )。 


你 会 看 到 Cython 其 实 是 一 个 转换 器 , 可 以 简单 看 成 一 个 软件 , 它 可 以 把 源 代码 从 一 种 语言 翻 
译 成 男 一 种 语言 。 类 似 的 软件 还 有 CoffeeScript 和 Dart。 这 两 个 是 不 同 的 软件 ， 使 用 不 同 的 语言 ， 
但 是 都 翻译 成 JavaScript。 

Cython 把 Python 的 超 集 (扩展 版 本 ) 翻译 成 C/C++。 然 后 ， 它 会 被 编译 成 Python 模 块 。 这 样 
人 允许 开发 者 : 
口 用 Python 代码 调用 原生 C/C++ 
a 用 静态 类 型 声明 把 Python 代码 优化 成 C 语 言 的 性 能 

静态 类 型 是 Cython 这 个 翻译 器 产生 优化 的 C 语 言 代码 的 主要 特征 ， 可 以 把 Python 的 动态 特性 
转变 成 静态 且 更 快 的 代码 (有 时 候 可 以 达到 几 个 数量 级 )。 

不 过 这 么 做 会 把 代码 变 得 更 嘿 吴 ,会 破坏 代码 的 可 维护 型 和 可 读 型 。 因 此 , 通常 并 不 推荐 使 
用 静态 类 型 ， 除 非 有 充分 理由 证 明 增 加 静态 类 型 可 以 充分 提高 代码 的 性 能 。 

开发 者 可 以 使 用 所 有 的 C 类 型 。Cython 可 以 对 变量 赋值 自动 进行 类 型 转换 。 当 面 对 Python 的 
任意 长 度 整 数 时 ， 如 果 转 换 成 C 类 型 出 现 了 栈 洪 出 ，Python 的 溢出 错误 就 会 产生 。 

下 图 显示 的 是 用 纯 Python 与 Cython 编 写 的 同样 的 代码 。 



























































































































































Python Cython 
def f(x): def f(double x): 
return x**2-x return x**2-x 
def integrate f(a, b, N): def integrate f(double a, 
S = 0 double b, int N): 
dx = (b-a)/N cdef int i 
for i in range(N): cdef double s, dx 
S += f(a+i*dx) B = 0 
return S * dx dx = (b-a)/N 
for i in range(N): 
S += f(a+i*dx) 
return s * dx 
































两 种 代码 的 主要 差异 用 加 粗 字 体 显 示 。 差 异 只 是 变量 的 类 型 定义 ,包括 两 个 函数 的 参数 ， 以 
及 局 部 变量 。 除 此 之 外 ， 左 边 的 Cython 代 码 可 以 生成 优化 的 C 语 言 代 码 。 
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6.2.1 安装 Cython 


在 你 的 系统 上 安装 Cython 有 好 几 种 方法 。 但 是 每 种 方法 的 共同 步骤 是 在 安装 之 前 都 需要 一 个 
C 语 言 编译 器 。 我 们 不 会 深入 介绍 这 个 步骤， 因为 不 同系 统 的 安装 命令 不 一 样 。 


安装 C 编 译 需 之 后 ， 可 以 用 下 面 的 步骤 安装 Cython。 
(1) 从 网 站 Chttp://cython.org ) 下 载 最 新 版 源 代码 ， 解 压 文件 进入 目录 ， 运 行 下 面 的 命令 : 

















$python setup.py install 
(2) 如 果 你 的 系统 上 有 安装 工具 (比如 pip )， 可 以 用 下 面 的 命令 : 


$pip install cython 


如 果 你 用 下 面 的 开发 环境 ，Cython 应 该 已 经 安装 好 了 。 即 使 没 装 ， 你 也 可 以 
用 更 简单 的 方法 安装 : 


Q Anaconda 
P- 


O Enthought Canopy 
口 PythonXY 
0 Sage 





6.2.2 ”建立 一 个 Cython 模块 
Cython 可 以 把 代码 编译 成 C 模 块 , 然后 导入 代码 。 要 实现 这 个 目标 , 你 需要 完成 以 下 几 个 步骤 。 


(1) 首先 ， 需要 用 Cython 把 .pyx 文 件 编译 ( 翻译 ) 成 .ce 文件。 这 些 文件 里 的 源 代码 ， 基 本 都 是 
纯 Python 代 码 加 上 一 些 Cython 代 码 。 后 面 我 们 会 看 到 一 些 例子 。 

(2) 然后 ，.c 文 件 被 C 语 言 编译 器 编译 成 . so 库 ， 这 个 库 之 后 可 以 导 人 Python。 

(3) 编译 代码 有 一 些 方法 ， 如 下 所 示 。 


a 我 们 可 以 创建 一 个 distutils 配 置 文件 。bistutils 是 一 个 创建 其 他 模块 的 工具 ， 我 们 可 以 用 它 
生成 自 定 义 的 C 语 言 编译 文件 。 
口 运行 cython 命 令 将 .pyx 文 件 编译 成 .c 文 件 。 然 后 用 C 语 言 编译 器 把 C 代 码 手动 编译 成 库 文 
件 Oo 

a 最 后 一 种 方法 是 用 pyximport， 像 导入 .py 文件 一 样 导入 .pyx 直 接 使 用 。 


(4) 为 了 演示 前 面 介 绍 的 知识 点 ， 我 们 用 aistutils 方 法 看 看 下 面 的 例子 : 


# test.pyx 
def join_n_print (parts): 
print ' '.join(parts) 















































































































































# test.py 
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from test import join_n_print 
join m:print([*PThig'"; wiet Sát “bes hry} 


# setup.py 
from distutils.core import setup 
from Cython.Build import cythonize 


setup ( 
name='Test app', 
ext_modules=cythonize("test.pyx"), 
) 


(5) 就 是 这 么 简单 ! 在 上 面 的 代码 中 ， 要 被 导出 的 代码 在 .pyx 文 件 中 。setup.py 文 件 一 直 都 是 
这 样 。 它 可 以 通过 不 同 的 参数 调用 setup 函 数 。 最 后 ， 它 会 调用 test.py 文 件 ， 文 件 中 导入 并 使 用 
了 库 文件 。 


(6) 为 了 有 效 地 编译 代码 ， 可 以 用 下 面 的 命令 : 



































$ python setup.py build_ext -inplace 


上 面 的 命令 生成 的 结果 如 下 图 所 示 。 你 会 看 到 它 不 仅 翻 译 (Cython{t ) 代码 ， 而 且 用 C 语 言 
编译 需 把 编译 代码 成 库 文件 。 





building 'test' extension 


x86 64-linux-gnu-gcc -pthread -fno-strict-aliasing -DNDEBUG -g -fwrapv -02 -Wall -Wstrict-prototypes 
.7/test.o 

x86 64-linux-gnu-gcc -pthread -shared -Wl,-01 -Wl,-Bsymbolic-functions -Wl,-Bsymbolic-functions -Wl, 
rototypes -D FORTIFY SOURCE-2 -g -fstack-protector --param-ssp-buffer-size-4 -Wformat -Werror-format 
orkspace/writing/python/chapter6/test.so 























前 面 的 代码 是 一 个 非常 简单 的 模型 。 但 是 ， 面 对 复杂 的 情况 时 ，Cython 通 常 都 需要 导入 两 类 
文件 。 
口 定义 文件 : 文件 扩展 名 .pxd， 是 其 他 Cython 文 件 要 使 用 的 变量 、 类 型 、 函 数 名 称 的 C 语 言 
声明 。 
OQ 实现 文件 : 文件 扩展 名 .pyx， 包 括 在 .pxd 文 件 中 已 经 定义 好 的 函数 实现 。 

定义 文件 中 通 第 包括 C 类 型 声明 、 外 部 C 函 数 或 变量 声明 ， 以 及 模块 中 定义 的 C 函 数 声明 。 EE 
们 不 包含 任何 C 或 Python 函数 的 实现 ， 也 不 包含 任何 Python 类 的 定义 或 可 执行 代码 行 。 


另 一 方面 ， 在 实现 文件 中 可 以 有 几乎 所 有 的 Cython 语 句 。 





















































下 面 是 Cython 官 方 文 档 (http:/docs.cython.org/src/userguide/sharing declarations.html ) 里 提供 
的 一 个 经 典 的 两 文件 模块 示例 ， 里 面 还 演示 了 如 何 导 入 .pyx 文 件 : 


# dishes.pxd 
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cdef enum otherstuff: 
Sausage, eggs, lettuce 


cdef struct spamdish: 
int oz of spam 
otherstuff filler 


# restaurant.pyx: 
cimport dishes 
from dishes cimport spamdish 


cdef void prepare(spamdish * d): 
d.oz of spam - 42 
d.filler - dishes.sausage 


def serve(): 
cdef spamdish d 
prepare( & d) 
print "$d oz spam, filler no. %d" $ (d.oz of spam, d.filler) 


默认 情况 下 ， 当 运行 cimport 时 ， 它 会 在 搜索 路 径 中 查找 同名 模块 的 nodulename.pxd 文 件 。 
无 论 定 义 文件 何 时 改变 ， 导 入 的 文件 都 需要 重新 编译 。 好 在 cythin.Build.cythonize 功 能 可 
以 帮 我 们 解决 这 个 问题 。 


6.2.3 调用 C 语言 函数 


和 标准 Python 一 样 ，Cython 也 可 以 让 开发 者 直接 通过 调用 已 编译 的 C 函 数 与 C 语 言 交 互 。 导 和 人 
这 些 库 函 数 的 方式 与 标准 Python 类 似 : 


from libc.stdlib cimport atoi 


在 定义 文件 或 实现 文件 中 使 用 cimport, 是 为 了 导入 在 其 他 文件 中 定义 的 名 称 。 这 个 语法 和 
标准 Python 中 的 import 完 全 一 致 。 


如 果 你 还 需要 使 用 库 文件 中 已 定义 的 一 些 类 型 的 定义 ， 那 么 可 能 需要 头 文件 (.h 文 件 )。 对 
于 这 种 情况 ， 用 Cython 不 像 在 C 语 言 中 直接 引用 文件 那么 简单 ， 还 需要 重新 声明 你 将 要 使 用 的 类 
型 和 结构 : 

cdef extern from "library.h": 


int library_counter; 
char *pointerVar; 


上 面 的 代码 演示 了 Cython 的 特性 。 


O 它 让 Cython 知 道 如 何在 生成 的 C 语 言 代 码 中 放 人 #incluqae 语 句 来 引用 我 们 需要 使 用 的 
库 。 
a 它 会 防止 Cython 为 这 段 代码 中 的 声明 生成 任何 C 代 码 。 
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a 它 会 把 代码 中 的 所 有 声明 看 成 caef extern， 表 示 那 些 声明 是 定义 在 其 他 地 方 。 


值得 注意 的 是 , 这 个 语法 必须 使 用 ， 因 为 Cython 在 任何 时 刻 都 不 会 读 取 头 文件 的 内 容 。 所 以 
你 还 需要 把 头 文件 的 内 容 进行 重新 声明 。 你 只 需要 重新 你 需要 的 那些 , 不 需要 关心 代码 中 的 其 他 
内 容 。 例 如， 如 果 你 在 头 文 件 中 声明 了 一 个 成 员 很 多 的 大 结构 体 ,你 只 需要 重新 声明 你 需要 使 用 
的 成 员 。 在 编译 时 ，C 编 译 需 会 使 用 完整 的 结构 体 源 代码 。 


解决 命名 冲突 
当 导 入 的 函数 名称 与 另 一 个 函数 名 称 相同 时 ， 会 出 现 一 个 有 趣 的 问题 。 


假如 你 在 头 文件 myHeaderh 中 定义 了 一 个 函数 print_with_colors， 而 你 希望 把 它 封 装 在 
同名 的 print_with_colors 国 数 里 ; Cython 提 供 了 一 种 方法 可 以 让 你 绕 开 这 个 问题 ， 并 保留 你 
想 要 的 名 称 。 


你 可 以 在 Cython 的 声明 文件 ( .pxd ) 中 增加 extern 函 数 声明 , 然后 再 把 它 cimport 到 Cython 
代码 中 : 
#my_declaration.pxd 


cdef extern "myHeader.h": 
void print_with_colors(char *) 































































































#my_cython_code.pyx 
from my_declaration cimport print_with_colors as c_print_with_colors 


def print_with_colors(str): 
c_print_with_colors(str) 


你 还 可 以 不 重 命名 函数 ， 而 用 声明 文件 名 作为 前 级 : 


#my_cython code.pyx 
cimport my_declaration 
def print_with_colors(str): 
my declaration.print with, colors(str) 





NS 两 种 方法 都 可 以 ,开发 者 可 根据 自己 的 习惯 自行 选择 。 关 于 这 个 主题 的 更 多 
信息 ， 请 参考 文档 http://docs.cython.org/src/userguide/external C code.html。 
6.2.4 ”定义 类 型 

就 像 前 面 提 到 的 ，Cython 允 许 开发 者 自 定义 变量 类 型 或 函数 返回 值 类 型 。 这 两 种 情况 都 要 用 
关键 词 cdef。 类 型 定义 其 实 是 可 选项 , 因为 Cython 通 常 要 把 代码 先 转 变 成 C 语 言 , 以 实现 对 Python 
代码 的 优化 。 也 就 是 说 ， 在 需要 的 地 方 定义 静态 类 型 一 定 有 助 于 优化 代码 。 


现在 让 我 们 看 一 段 简单 的 Python 代 码 示例 , 看 看 同样 的 代码 如 何 用 三 种 方式 执行 : ZüPython, 
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没有 类 型 的 编译 过 的 Cython ， 以 及 有 类 型 且 编 译 过 的 Cython。 














代码 如 下 所 示 : 
Python Cython 
def is_prime (num): def is_prime(int num): 
for j in range(2,num): cdef int j; 
if (num $ j) == 0: for j in range(2,num): 

return False if (mum % j) == 

return True return False 
return True 




















由 于 我 们 把 fozr 循 环 的 变量 j 声 明 为 C 整 型 变量 ，Cython 将 会 把 for 循 环 转换 成 优化 的 C 循 环 ， 
这 是 代码 主要 的 改进 之 一 。 
现在 我 们 配置 一 个 主 文件 来 导入 模块 : 


import sys 
from < right-module-name > import is_prime 




















def main(argv): 


if (len(sys.argv) != 3): 
Sys.exit('Usage: prime numbers.py «lowest bound» «upper. bound»') 


low - int(sys.argv[1]) 
high - int(sys.argv[2]) 


for i in range(low, high): 
if is prime(i): 





print i, 
if name. == " main 
main(sys.argv[1:]) 
然后 执行 命令 : 


$ time python script.py 10 10000 
我 们 会 获得 下 面 的 有 趣 结果 : 


纯 Python 已 编译 无 类 型 已 编译 有 类 型 
0.792%) 0.6945) 0.0439h 





尽管 非 优化 版 的 Cython 代 码 也 比 纯 Python 要 快 ， 但 当 我 们 开始 声明 类 型 之 后 才 会 看 到 Cython 
的 真正 威力 。 


6.2.5 ”定义 函数 类 型 
Cython 中 有 两 种 不 同类 型 的 函数 可 以 定义 。 
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O 标准 Python 函数 : 这 种 普通 函数 与 纯 Python 代 码 中 声明 的 函数 完全 一 样 。 要 定义 这 种 函 
数 ， 你 只 需要 用 标准 的 caef 关 键 字 就 行 。 这 种 函数 接受 Python 对 象 作为 参数 ， 也 返回 
Python X% 。 

O C 函 数 : 这 种 函数 是 是 标准 函数 的 优化 版 。 它 们 可 以 用 Python 对 象 和 C 语 言 类 型 作为 参数 ， 
返回 值 也 可 以 是 两 种 类 型 。 要 定义 这 种 函数 ， 你 需要 用 特殊 关键 字 cqef。 


这 两 种 函数 都 可 以 通过 Cython 模 块 调用 。 但 是 ( 这 里 有 一 个 十 分 重要 的 差异 )， 如 果 你 想 从 
Python 代码 中 调用 函数 , 你 必须 得 确保 函数 是 标准 Python 函数 ,或 者 是 使 用 特殊 的 cpdef 关 键 字 。 
这 个 关键 字 会 创建 一 个 函数 的 封装 对 象 。 当 用 Cython 调 用 函数 时 ， 它 用 C 语 言 对 象 ; 当 从 Python 
代码 中 调用 函数 时 ， 它 用 纯 Python 函 数 。 

当 我 们 要 为 这 个 函数 的 参数 定义 C 语 言 类 型 时 ,一 个 自动 的 转换 ( 如 果 可 能 ) 会 将 Python 对 
象 转换 成 C 语 言 类 型 。 目 前 可 以 使 用 的 类 型 具有 数值 类 型 、 字 符 串 string 和 结构 体 struct 类 型 。 
如 果 你 用 其 他 类 型 ， 后 面 都 会 产生 编译 时 错误 。 

下 面 这 段 简单 的 代码 演示 了 两 种 方式 的 差异 : 


#my_functions.pxd 
# 这 是 一 个 纯 Python 函 数 ， 因 此 Cython 会 让 这 个 函数 返回 并 接收 一 个 Python 对 象 ， 而 不 是 C 语 言 原生 类 型 。 
cdef full python function (x): 

return x**2 





























































































































# 这 个 耶 数 就 不 同 了 ， 由 于 使 用 了 cpdef 关 键 字 ， 所 以 它 既 是 一 个 标准 溃 数 ， 也 是 一 个 优化 过 的 C 语 言 函 数 。 
cpdef int c_function(int num): 
return x**2 


| 如 果 返 回 值 的 类 型 或 参数 类 型 未 定义 ， 将 它 被 看 成 Python 对 象 。 ] 























还 有 一 点 需要 注意 的 是 ， 不 返回 Python 对 象 的 C 语 言 函 数 ， 在 调用 时 不 能 抛 出 Python 异 常 。 
因此 ,在 错误 发 生 时 , 会 出 现 警告 信息 ,但 是 异常 信息 会 被 忽略 。 这 显然 是 个 问题 。 好 在 有 一 种 
方法 可 以 解决 这 个 问题 。 

我 们 可 以 在 函数 定义 中 使 用 except 关 键 字 。 这 个 关键 字 的 含义 是 ， 任 何 时 候 当 函数 出 现 异 
常 时 ， 都 会 返回 一 个 特定 的 值 。 例 子 如 下 : 

cdef int text(double param) except -1: 

上 面 这 行 代码 的 意思 是 , 任何 时 候 函 数 一 旦 出 现 异 常 ,就 返回 -1。 关 键 是 你 不 需要 从 函数 中 
手动 返回 异常 值 。 如 果 你 把 False 定 义 成 异常 返回 值 ， 这 么 做 就 有 意义 了 ， 因 为 任意 False 值 都 
会 返回 。 


有 时 候 except 返 回 值 也 可 能 是 一 个 真实 的 返回 值 ， 这 时 可 以 用 男 一 种 表示 方法 : 





















































cdef int text (double param) except? -1: 
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这 个 ?表示 -1 可 能 是 异常 返回 值 。 当 返回 -1 时 ， Cython 会 调用 PyErr_occurred() 判 断 那 是 
一 个 异常 还 是 一 个 正常 返回 值 。 





还 有 一 种 sxcept 表 现形 式 ， 会 对 任意 返回 值 调用 pyErr_occurred () PAR: 

cdef int text(double param) except *: 

这 种 方法 的 唯一 用 处 是 诊断 那些 没有 返回 值 的 void 函数 的 异常 。 这 是 因为 在 这 种 特殊 的 情 
况 下 ， 没 有 任何 返回 值 可 检查 ; 但 是 ， 真 正 需要 用 这 种 方法 的 情况 其 实 不 会 出 现 。 








6.2.6 Cython 示例 


让 我 们 快速 演示 一 个 在 6.1 节 里 介绍 过 的 例子 。 通 过 例子 我 们 会 看 到 如 何 改善 脚本 的 性 能 。 
代码 将 会 做 同样 的 计算 500 万 次 ， 每 次 计算 都 需要 使 用 数学 库 里 的 PI、acos 、cos 和 sin: 
def great circle(lon1, lati, lon2, lat2): 


radius = 3956 4 英里 
x - PI/180.0 


a (90.0-1at1)* (x) 


b (90.0-1at2) * (x) 
theta = (lon2-lon1) * (x) 
c = acos((cos(a)*cos(b)) + (sin(a)*sin(b) *cos (theta) ) ) 


return radius*c 
然后 我 们 用 下 面 的 脚本 来 测试 函数 运行 500 万 次 的 时 间 : 
from great_circle_py import great_circle 


ronl; latl, lon2, lat2 = -72.345, 34.323, -61.823, 54.826 
num = 5000000 


for i in range (num) : 
great_circle(lonl, latl, lon2, lat2) 


就 像 之 前 介绍 过 的 ， 如 果 用 Linux 的 time 功 能 统计 CPython 解 释 器 的 运行 时 间 ， 我 们 将 会 看 到 
运行 时 间 大 概 是 4.5 秒 ( 在 我 自己 的 电脑 上 )。 你 的 运行 时 间 可 能 会 不 一 样 。 



































不 用 前 面 儿童 介绍 的 性 能 分 析 器 ,我 们 直接 统计 Cython 代 码 。 我们 将 直接 向 测试 代码 中 引入 
一 些 在 前 面 介绍 过 的 优化 方法 。 
下 面 是 我 们 的 第 一 次 优化 : 


# great circle cy vl.pyx 
from math import pi as PI, acos, cos, sin 





def great circle(double lonl, double lat1, double lon2, double lat2): 
cdef double a, b, theta, c, x, radius 


radius = 3956 # 英里 
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x = PI/180.0 


(90.0-1at1)* (x 
(90.0-lat2) * (x) 
heta = (lon2-1lon1) * (x) 

= acos((cos(a)*cos(b)) + (sin(a)*sin(b) *cos (theta) ) ) 
return radius*c 


# great circle setup vl.py 
from distutils.core import setup 
from Cython.Build import cythonize 


setup( 

name = 'Great Circle module v1', 

ext modules = cythonize("great circle cy vil.pyx"), 
) 


你 会 看 到 , 在 前 面 的 代码 中 , 我 们 所 做 的 事情 就 是 把 代码 中 的 变量 和 参数 都 改 成 C 语 言 类 型 。 
这 样 处 理 后 运行 时 间 从 4.5 秒 降低 到 了 3 秒 。 我 们 缩短 了 1.5 秒 ， 但 是 还 可 以 进一步 优化 。 

现在 代码 中 用 的 还 是 Python 的 math 库 。 而 Cython 可 以 让 Python 和 C 语 言 库 完美 结合 ， 这 样 在 
我 们 需要 的 时 候 将 十 分 有 用 。 你 会 发 现 , 它 可 以 满足 我 们 的 需求 ， 而 且 不 需要 太 多 付出 。 下 面 让 
我 们 把 Python 的 数学 库 删 掉 ， 改 成 C 语 言 的 math.h 文 件 : 


# great circle cy v2.pyx 

cdef extern from "math.h": 
float cosf(float theta) 
float sinf(float theta) 
float acosf(float theta) 














def great circle(double lon1, double lati, double lon2, double lat2): 
cdef double a, b, theta, c, x, radius 
cdef double pi - 3.141592653589793 


radius = 3956 # 英里 
x - pi/180.0 


a (90.0-lat1) * (x) 
b (90.0-lat2) * (x) 
theta = (lon2-lon1) * (x) 
c = acosf((cosf(a)*cosf(b)) + (sinf(a)*sinf(b)*cosf (theta) ) ) 
return radius*c 


当 我 们 把 Python 的 数学 库 删 掉 ， 改 成 C 语 言 的 math.h 之 后 ， 会 看 到 前 面 的 运行 时 间 4.5 秒 变 成 
了 0.95 秒 ， 非 常 给 力 。 


oul 








6.2.7 ”定义 类 型 的 时 机 选择 


前 面 的 例子 可 能 让 你 觉得 优化 很 简单 。 但 是 ， 对 于 一 些 较 大 的 脚本 ,( 尽 可 能 地 ) F 
量 都 转变 成 C 语 言 类 型 ， 把 每 个 Python 库 都 替换 成 C 语 言 库 文 件 ， 并 非 最 佳 方案 。 
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这 么 做 可 能 会 影响 代码 的 可 维护 性 和 可 读 性 ， 还 可 能 会 损害 Python 代码 的 灵活 性 。 另 外 ， 甚 
至 可 能 由 于 增加 了 大 量 不 必要 的 静态 类 型 检查 和 转换 而 损害 了 性 能 。 因此 必须 为 类 型 定义 和 库 蔡 
换 选 择 正 确 的 对 象 。 方 法 就 是 用 Cython。Cython 具 有 注释 源 代码 的 能 力 ， 可 以 图 形 化 地 显示 出 
行 代 码 是 如 何 转变 成 C 代 码 的 。 

可 以 通过 Cython 的 -a 属性 生成 一 个 HTML 文 件 ， 里 面 会 将 代码 高 亮 显 示 。 黄 色 代 码 行 越 多 ， 
表示 需要 换 成 C 代 码 的 C-API 接 口 越 多 。 白 色 代 码 行 (没有 颜色 的 代码 行 ) 表示 已 经 被 直接 转换 
为 C 代 码 。 让 我 们 看 看 源 代码 在 新 工具 下 被 泻 染 成 什么 样子 : 












































$ cython -a great circle py.py 


下 图 所 示 的 HTML 文 件 就 是 前 面 命令 产生 的 结果 。 








Generated by Cython 0.22 


Raw output: reat circle py.c 





+01: import math 


02: 

+03: def great circle(lonl,latl,lon2,lat2): 

404: radius = 3956 #miles 

405: x = math.pi/180.0 

06: 

+07: a = (90.0-lat1)*(x) 

+08: b = (90.0-lat2)*(x) 

+09: theta = (lon2-lonl)*(x) 

+10: c = math.acos((math.cos(a)*math.cos(b)) + 
+11: (math.sin(a)*math.sin(b)*math.cos(theta))) 
+12: return radius*c 

















通过 上 图 你 会 清晰 地 看 到 ， 为 了 转换 成 C 语 言 代码 ， 大 部 分 代码 都 需要 与 一 些 C-API 接 口 进 
行 交互 ( 只 有 第 4 行 是 全 白 的 )。 非常 重要 的 一 点 是 要 明白 , 我 们 的 目标 是 要 让 代码 行 都 尽 可 能 变 
白 。 带 + 号 的 行 表示 代码 可 以 点 击 ， 里面 会 显示 产生 的 C 代 码 ， 如 下 图 所 示 。 























Generated by Cython 0.22 
Raw output: great circle py.c 6 
+01: import math 
02: 
+03: def great circle(lonl,latl,lon2,lat2): 
404: radius = 3956 #miles 
+05: x = math.pi/180.0 
_ pyx t 1 = _ Pyx_GetModuleGlobalName(__pyx_n_s_ math); 
F TREF(  pyx t 1) 
__pyx_t_2 =  Pyx Pyobject GetAttrStr( pyx t 1l,  pyx n s pi); 
REF( pyx t 2); 
Pyx_DECREF(_ pyx t 1); _pyx t 1 = 0; 
_pyx t l= _ Pyx_PyNumber Divide( pyx t 2, _ pyx_float_180 0); 
EF pyk Ei); 
Pyx DECREF(__pyx_t_2); _pyx t 2 = 0; 
—pyxvx- _ pyxt 1; 
__pyx_t_1 = 0; 
06: 
+07: a = (90.0-latl1)*(x) 
+08: = (90.0-lat2)*(x) 
+09: theta = (lon2-lonl)*(x) 
+10: c = math.acos((math.cos(a)*math.cos(b)) + 
+11: (math.sin(a)*math.sin(b)*math.cos(theta))) 
+12: return radius*c 
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现在 ， 通 过 对 结果 的 判断 ， 我 们 知道 浅黄 色 表 示 简 单 的 赋值 (第 5、7、8 行 和 第 9% 行 ) 它们 
很 容易 优化 ， 就 像 我 们 之 前 做 的 那样 : 把 变量 都 改 成 C 语 言 类 型 ， 去 掉 原来 的 Python 对 象 ， 而 这 
需要 我 们 变更 代码 。 


代码 变更 完 之 后 ， 分 析 结 果 如 下 图 所 示 ， 里 面 是 great circle _cy_v1.pyx 的 分 析 结 果 。 























Generated by Cython 0.22 


Raw output: great circle cy vl.c 


+01: import math 
02: 
+03: def great circle(double lonl,double latl,double lon2,double lat2): 


04: cdef double a, b, theta, c, x, radius 

05: 

+06: radius = 3956 #miles 

+07: x = math.pi/180.0 

08: 

+09: a = (90.0-latl)*(x) 

+10: b = (90.0-lat2)*(x) 

+11: theta = (lon2-lonl)*(x) 

+12: € = math.acos((math.cos(a)*math.cos(b)) + 
+13: (math.sin(a)*math.sin(b)*math.cos(theta))) 
+14: return radius*c 














现在 更 好 了 ! 除了 第 7 行 是 黄 的 ， 其 他 行 都 是 白 的 。 当 然 ， 这 是 因为 这 一 行 引 用 了 math.pi 
对 象 。 我 们 可 以 简单 地 使 用 一 个 FI 常量 来 初始 化 pi 的 值 。 但 是 ,我们 还 有 两 个 大 黄 条 ， 第 12 行 
和 第 13 行 。 这 也 是 由 于 我 们 使 用 math 库 的 缘故 。 因 此 ， 当 我 们 去 掉 math 之 后 ， 就 会 得 到 下 面 的 
文件 。 














Generated by Cython 0.22 
Raw output: great circle cy v2.c 
01: cdef extern from "math.h": 
02: float cosf(float theta) 
03: float sinf(float theta) 
04: float acosf (float theta) 
05: 
+06: def great circle(double lonl,double latl,double lon2,double lat2): 
07: cdef double a, b, theta, c, x, radius 
408: cdef double pi = 3.141592653589793 
09: 
+10: radius = 3956 #miles 
+11: x = pi/180.0 
12: 
+13: a = (90.0-Lat1)*(x) 
+14: b = (90.0-lat2)*(x) 
+15: theta = (lon2-lonl)*(x) 
+16: c = acosf((cosf(a)*cosf(b)) + 
17: (sinf(a)*sinf(b)*cosf(theta))) 
*18: return radius*c 











上 图 显示 的 是 之 前 演示 过 的 代码 。 几 乎 所 有 的 代码 都 可 以 直接 翻译 成 C 语 言 ， 我 们 也 因此 获 
得 了 很 高 的 性 能 。 现 在 我 们 还 剩 两 行 黄色 代码 : 第 6 行 和 第 18 行 。 
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函数 , 可 能 就 无 法 接 入 了 。 但是, 第 18 行 也 不 完全 是 白 的 。 这 是 因为 great_circle 是 一 个 Python 
函数 ， 其 返回 值 是 一 个 Python 对 象 ， 需 要 被 翻译 并 封装 成 C 语 言 类 型 的 值 。 如 果 我 们 单 击 这 行 代 
码 ， 就 会 看 到 下 面 的 结果 。 

















+16: c = acosf((cosf(a)*cosf(b)) + 
17: (sinf(a)*sinf(b)*cosf(theta))) 
+18: return radius*c 


Pyx XDECREF( pyx r); 
. pyx t 1 = PyFloat FromDouble(( pyx v radius *  pyx v c)); 


TREF( pyx t 1); 
= pyx_r = pyxt 1; 
|. pyxt1-2 0; 


goto  pyx L0; 














解决 这 个 bug 的 方法 是 用 cpaef 声 明 函 数 ， 这 样 就 可 以 对 函数 进行 封装 了 。 但 是 它 还 可 以 让 
我 们 声明 返回 值 类 型 。 所 以 ， 我 们 不 再 返回 一 个 Python 对 象 ， 而 是 返回 一 个 double 对象。 最 终 
结果 如 下 图 所 示 。 


























Generated by Cython 0.22 


Raw output: great circle cy v3.c 


01: cdef extern from "math.h": 


02: float cosf(float theta) 
03: float sinf(float theta) 
04: float acosf(float theta) 
05: 
+06: cpdef double great circle(double lonl,double latl,double lon2,double Lat2) : 
07: cdef double a, b, theta, c, x, radius 
+08: cdef double pi = 3.141592653589793 
09: 
+10: radius = 3956 #miles 
+11: x = pi/180.0 
12: 
+13: a = (90.0-lat1)*(x) 





+14: b = (90.0-lat2)*(x) 
+15: theta = (lon2-lonl)*(x) 
+16: c = acosf((cosf(a)*cosf(b)) + 
17: (sinf(a)*sinf(b)*cosf(theta))) 
+18: return radius*c 
__pyx_r = (_ pyxv radius * pyx v c); 
goto _ pyx L8; 








通过 最 后 一 次 优化 ,我 们 可 以 看 到 返回 语句 的 C 代 码 是 如 何 被 优化 的 。 性 能 也 获得 了 一 点 儿 
提升 ， 执 行 时 间 从 0.95 秒 降低 到 了 0.8 秒 。 

通过 分 析 代 码 , 我 们 可 以 进一步 对 代码 进行 细致 的 优化 。 在 对 Cython 代 码 进行 优化 时 ,这 种 
技术 是 展示 优化 进度 的 好 方法 。 这 种 技术 为 代码 优化 的 复杂 性 提供 了 可 视 、 简 单 的 衡量 指标 。 








第 6 章 常用 的 优化 方法 





章 前 xa 分 用 Pypy 对 代码 进行 优化 的 效果 更 好 ( Cython 的 优化 结果 是 0.8 秒 ， 而 


要 注意 的 是 ， 有 时 通过 Cython 对 代码 进行 优化 的 结果 , 不 一 定 比 我 们 在 本 
PyPy 的 优化 结果 是 0.5 秒 )。 


6.2.8 限制 条 件 


到 目前 为 止 ， 我 们 介绍 的 内 容 都 在 告诉 你 Cython 是 性 能 优化 的 利器 。 但 是 ，Cython 的 语法 与 
Python 并 不 完全 兼容 。 当 我 们 决定 用 这 个 工具 优化 代码 之 前 ， 有 一 些 限 制 条 件 必须 要 考虑 。 从 项 
目 公 开 的 bug 列 表 中 ， 我 们 可 以 看 到 如 下 限制 条 件 。 


1. 生成 器 表达 式 


这 类 表达 式 是 目前 Cython 最 受 诉 病 的 限制 之 一 ， 因 为 在 当前 的 Cython 中 有 一 些 问题 。 这 些 问 
题 如 下 。 


OQ 由 于 表达 式 计算 范围 (evaluation scope ) 的 限定 有 问题 ， 因 此 不 能 在 生成 器 表达 式 内 部 使 
用 可 和 迭代 对 象 (iterable )。 

Q 另外 ,在 处 理 生成 器 表达 式 内 部 使 用 可 迭代 对 象 时 ，Cython 会 在 生成 器 内 部 计算 可 迭代 
对 象 。 而 CPython 是 在 生成 器 外 部 计算 。 

口 CPython 的 生成 器 具有 一 些 属性 可 以 让 用 户 查 看 。 但 是 Cython 的 生成 器 的 这 类 属性 还 不 够 
全 面 。 



























































2. 对 比 char* 常 量 
目前 Cython 的 字 节 字符 串 比 较 是 通过 指针 实现 的 ， 并 不 是 字符 串 的 真实 值 : 


cdef char* str = "test string" 
print str == b"test string" 


上 面 的 代码 并 不 一 定 会 返回 rrue。 这 将 由 存储 第 一 个 字符 串 的 指针 地 址 决定 ， 而 不 是 字符 
RITES. 


3. 元 组 作为 函数 参数 


Python 语言 允许 下 面 的 语法 ， 虽 然 只 是 一 个 Python 2 的 特性 : 


















































nn 





def myFunction( (a,b) ): 
return a + b 

args e (14.2) 

print myFunction(args) 


但 是 , 前 面 的 代码 在 Cython 中 是 不 支持 的 。 可 能 Cython 以 后 也 不 会 修复 这 个 bug, 因为 Python 
3 已 经 不 文 持 这 个 特性 了 。 
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[ 其 实 Cython 团 队 在 发 布 1.0 版 本 的 时 候 就 一 直 期 望 消除 大 多 数 限制 。 ] 


4. 栈 帧 


Cython 目 前 通过 except 返 回 值 作为 异常 捕捉 机 制 的 一 部 分 。 这 种 方法 不 能 捕捉 locals 和 
co_code 值 的 异常 。 为 了 解决 这 类 问题 , 需要 在 函数 调用 时 生成 栈 帧 (stack frame )， 因 此 也 造成 
了 性 能 损失 。 目 前 还 不 确定 Cython 团 队 是 否 会 解决 这 个 问题 。 





























6.3 ”如 何 选 择 正确 的 工具 


到 此 为 止 ,我 们 已 经 介绍 了 两 种 快速 优化 代码 的 工具 。 但 是 ,如 何 判 断 哪 种 工具 是 正确 的 呢 ? 
又 或 者 哪 种 工具 最 好 呢 ? 

以 上 两 个 问题 的 答案 只 有 一 个 : 没有 最 好 或 正确 的 工具 。 工 具 无 论 优 劣 , 完全 由 以 下 需求 决定 : 
口 你 需要 优化 的 实际 情况 
口 对 Python 和 C 语 言 的 熟悉 程度 
口 被 优化 代码 可 读 性 的 重要 程度 
口 完成 优化 需要 花费 的 时 间 














6.3.1 什么 时 候 用 Cython 
满足 以 下 条 件 时 ， 可 以 选择 Cython。 


O 你 熟悉 C 语 言 : 这 并 不 是 说 你 得 用 C 语 言 写 代码 ， 而 是 说 你 理解 C 语 言 的 常用 原则 ， 比 如 
静态 类 型 和 C 语 言 库 ， 如 math.h 头 文件 。 因 此 ， 熟 悉 C 语 言及 其 原理 将 大 有 好 处 。 

口 失去 代码 可 读 性 不 成 问题 : 用 Cython 写 代码 和 Python 不 同 ， 所 以 代码 的 可 读 性 会 受 损 。 
口 需要 完全 支持 Python 的 特性 : Cython 虽 然 不 是 Python， 但 它 更 多 地 是 作为 Python 的 扩展 ， 
而 不 是 Python 的 子 集 。 因 此 ， 如 果 你 需要 完全 的 兼容 性 ，Cython 可 以 满足 你 的 需求 。 










































































6.32 ”什么 时 候 用 PyPy 
满足 以 下 条 件 时 ， 可 以 选择 PyPy。 

口 你 的 脚本 经 常 需要 运行 : 如果 你 的 程序 需要 长 期 运行 ， 那么 PyPy 的 JIT 优 化 将 是 一 个 给 力 

的 解决 方案 ,循环 运行 不 断 优化 代码 。 如 果 你 的 脚本 只 运行 一 次 就 不 再 用 了 ， 那 么 PyPy 
其 实 比 普通 的 CPython 还 要 慢 。 

口 不 需要 完全 支持 所 有 第 三 方 库 : 虽然 PyPy 和 Python 2.7 兼 容 ， 但 是 并 不 完全 支持 所 有 的 第 
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三 方 库 , 尤其 是 那些 C 语 言 相关 的 库 。 因此, 根据 你 的 具体 需求 , PyPy 可 能 不 是 正确 选择 。 
O 你 需要 代码 与 CPython 完 全 兼容 : 如 果 你 需要 代码 在 两 种 环境 下 运行 ( PyPy 和 CPython ), 
那么 Cython 肯 定 是 没 法 儿 满足 需求 了 ，PyPy 将 成 为 唯一 选择 。 

















6.4 小结 


这 一 章 介 绍 了 标准 Python 实现 的 其 他 两 个 版 本 。 一 种 是 PyPy， 它 是 Python 的 一 个 分 支 ， 是 由 
RPython 实 现 的 。PyPy 的 JIT 编 译 器 可 以 在 运行 过 程 中 优化 代码 。 另 一 种 是 Cython ， 基 本 可 以 看 成 
把 Python 代码 翻译 成 C 语 言 代码 的 转换 器 。 我 们 介绍 了 两 种 方法 的 工作 原理 、 安 装 方法 ， 以 及 如 
何 调整 代码 以 实现 性 能 的 改善 。 


最 后 ， 我 们 总 结 了 一 些 条 件 ， 以 帮助 读者 正确 地 选择 工具 。 


下 一 章 将 关注 Python 的 具体 应 用 领域 : 数据 处 理 。 这 个 话题 在 Python 社区 非常 热门 ， 因 为 
Python 经 党 被 用 于 科学 研究 。 我 们 将 介绍 三 种 工具 来 帮助 我 们 改善 代码 性 能 : Numba, Parakeet 
和 pandas。 
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数据 处 理 ( number crunching ) 是 编程 世界 的 一 个 主题 。 但 是 , 由 于 Python 经 常用 于 解决 科学 
研究 和 数据 科学 问题 ， 所 以 数据 处 理 成 了 Python 世界 的 主流 课题 。 

















通过 前 面 六 章 内 容 的 学 习 , 我 们 应 该 可 以 轻松 地 实现 自己 的 算法 , 并 写 出 非常 快速 且 令 人 满 
意 的 代码 了 。 这 六 章 都 是 针对 一 般 的 需求 进行 优化 , 而 实际 工作 中 还 会 有 一 些 特殊 情况 需要 优化 。 
这 一 章 将 介绍 三 种 方法 , 帮助 我 们 写 出 快速 高 效 的 代码 来 解决 科学 计算 问题 。 对 于 每 一 种 方 
法 ,我 们 都 从 安装 开始 讲 起 ， 然 后 通过 一 些 示 例 代码 体现 方法 的 优势 。 
本 章 将 介绍 的 三 种 工具 如 下 。 
Q Numba: 这 个 模块 可 以 让 你 利用 机 器 码 实现 高 性 能 的 纯 Python 代 码 。 
Q Parakeet: 这 是 一 种 用 Python 子 集 为 科学 计算 设计 的 运行 时 编译 器 。 它 非常 适合 处 理科 学 
计算 问题 。 
Q pandas: 这 个 库 提 供 了 一 系列 高 性 能 的 数据 结构 和 分 析 工 具 。 





















































7.1 Numba 





Numba (http:/numba.pydata.org/ ) 是 一 个 模块 ， 让 你 能 够 ( 通过 装饰 妖 ) 控制 Python 解释 需 
把 函数 转变 成 机 器 码 。 因 此 ，Numba 实 现 了 与 C 和 Cython 同 样 的 性 能 ， 但 是 不 需要 用 新 的 解释 器 
或 者 写 C 代 码 。 


这 个 模块 可 以 按 需 生 成 优化 的 机 顺 码 ， 甚 至 可 以 编译 成 CPU 或 GPU 可 执行 代码 。 























下 面 的 代码 是 官方 网 站 上 的 示例 ， 可 以 显示 模块 的 使 用 方法 。 我 们 将 在 后 面 详细 介绍 : 





from numba import jit 
from numpy import arange 
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# jit SA Numbah ek wR 
# 当 函 数 被 调用 时 ，Numba 会 把 参数 类 型 引入 
@jit 
def sum2d(arr): 

M, N = arr.shape 

result = 0.0 

for i in range(M): 

for j in range(N): 
result += arr[i, j] 
return result 


a = arange(9).reshape(3, 3) 
print (sum2d(a) ) 


虽然 Numba 看 起 来 好 像 非常 给 力 ， 但 是 它 只 是 

















是 针对 数组 操作 进 








NumPy 使 用 〈 我 们 后 面 会 介绍 )。 因此， 并 非 每 个 函数 都 可 ye 


损害 性 能 。 
例如 ， 让 我 们 看 一 





from numba import jit 
from numpy import arange 


# jit B+ Numbah kh wR 
# 当 函 数 被 调用 时 ，Numba 会 把 参数 类 型 引入 
@jit 
def sum2d(arr): 
M, N = arr.shape 
result = 0.0 
for i in range(M): 
for j in range(N): 
result += arr[i, j] 
return result 





a = arange(9).reshape(3, 3) 
print (sum2d(a) ) 


前 面 的 代码 使 用 和 不 使 用 ejit 行 的 效果 如 下 。 


a 使 用 @jit 行 : 0.3 秒 
a 不 使 用 ejit 行 : 0.1 秒 

















7.1.1 安装 


安装 Numba 有 两 种 方法 : 可 以 用 Anaconda 出 品 的 condqa 包 管理 需 ， 也 可 以 复 氏 


代码 进行 编译 。 


如 果 你 打算 用 conga 方 法 安装 ， 
pydata.org/miniconda.html 下 载 )。 安 装 之 后 ， 输 入 下 面 的 命令 : 


个 类 似 的 例子 ， 不 用 Numba 也 可 以 完成 类 似 的 任务 : 


行 优化 。 它 非常 适合 配合 
滥用 Numba 甚 至 会 





{GitHub H YF 


需要 先 安装 minicondqa 命 令 行 工 具 ( 可 以 从 http://conda. 
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$ conda install numba 


命令 输出 结果 如 下 图 所 示 。 所 有 要 安装 、 升 级 的 包 都 会 显示 出 来 ， 像 numpy 和 11vmlite 都 
是 与 Numba 有 直接 依赖 的 包 。 























fernando@dune:~$ conda install numba 

Fetching package metadata: 

Solving package specifications: 

Package plan for installation in environment /home/fernando/miniconda: 


The following packages will be downloaded: 
package build 


enum34-1.0.4 
funcsigs-0.4 
lilvmlite-0.4.0 
numpy-1.9.2 
numba-0.18.2 
requests-2.7.0 
setuptools-16.0 
conda-3.12.0 


following NEW packages will be INSTALLED: 


enum34: .0.4-py27 0 
funcsigs: .4-py27 0 
llvmlite: .4.0-py27 0 
numba: .18.2-npl9py27 1 
numpy: .9.2-py27 0 

pip: .1.1-py27_0 
setuptools: 16.0-py27 0 


following packages will be UPDATED: 


conda: 3.10.1-py27 0 --> 3.12.0-py27 0 
requests: 2.6.0-py27 0 --> 2.7.0-py27 0 


Proceed ([y]/n)? [] 











另外 ， 如 果 想 用 源 代码 安装 ， 你 需要 先 用 下 面 的 命令 复制 源 代码 : 
$ git clone git://github.com/numba/numba.git 


当然 aumpy 和 11vmlite 包 也 是 需要 提前 安装 好 的 。 都 准备 好 之 后 











用 下 面 的 命令 进行 安装 : 








$ python setup.py build_ext -inplace 


安装 依赖 ，Numba 是 没 法 儿 用 的 。 





GS 要 注意 的 是 ， 即 使 没有 安装 依赖 包 ， 上 面 的 命令 也 可 以 成 功 运 行 。 但 是 如 
Rae 

















要 检查 Numba 是 和 否 可 以 正常 使 用 ， 可 以 在 Python 的 REPL 里 输入 下 面 的 命令 : 











>>> import numba 
>>> numba. version 
"01:8. 2." 
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7.1.2 使 用 Numba 
现在 Numba 已 经 安装 好 了 ， 让 我 们 看 看 如 何 使 用 它 。 这 个 模块 提供 的 主要 功能 如 下 : 


口 即时 代码 生成 ( On-the-fly code generation ) 
口 CPU 和 GPU 原 生 代 码 生 成 
口 与 具有 NumPy 依 赖 的 Python 科学 计算 软件 配合 使 用 


1. Numba 代 码 生 成 

Numba 代 码 和 后 成 的 主要 方式 是 使 用 ej it 装饰 器 。 加 上 它 就 表示 要 用 Numba 的 JIT 编 译 器 对 函 
数 进行 优化 。 

在 前 一 章 里 我 们 已 经 介绍 过 JIT 编 译 器 的 好 处 ， 因 此 这 里 不 再 深入 细节 。 让 我 们 看 看 如 何 用 
Qj it 装饰 需 进 行 优化 。 

使 用 这 个 装饰 器 的 方式 有 几 种 。 默 认 的 ， 也 是 官方 推荐 的 方法 ， 之 前 也 已 经 介绍 过 : 






































延迟 编译 (Lazy compilation) 


在 下 面 的 代码 中 ， 当 函数 被 调用 时 , Numba 将 生成 优化 代码 。 它 将 引用 属性 类 型 和 函数 的 返 


回 类 型 ; 











from numba import jit 
@jit 
def sum2 (a,b): 

return a + b 


如 果 你 用 同样 的 函数 调用 其 他 类 型 ， 会 生成 并 优化 不 同 的 代码 路 径 。 
(1) 及 时 编译 


另 一 方面 ， 如 果 你 知道 函数 的 接收 类 型 ( 返回 类 型 也 可 以 )， 可 以 把 这 些 类 型 传 到 ej 让 装饰 
需 。 之 后 ， 只 有 这 种 特殊 情况 会 被 优化 。 


下 面 代码 中 增加 的 部 分 会 被 传递 到 函数 的 签名 里 : 























from numba import jit, int32 
@jit(int32(int32, int32)) 


def sum2 (a,b): 
return a + b 


用 于 指定 函数 签名 的 常用 类 型 如 下 。 
O void: 函数 返回 值 类 型 ， 表 示 不 返回 任何 结果 。 








O intpflluintp: 指针 大 小 的 整数 ， 分 别 表 示 签 名 和 无 签名 类 型 。 

口 intc 和 uintc: 相当 于 C 语 言 的 整 型 和 无 符号 整 型 。 

D int8、int16、int32 和 int64: 固定 宽度 整 型 (无 符号 整 型 前 面 加 ， 比 如 vint8 )。 
口 float32 和 float64: 单 精度 和 双 精 度 浮 点 数 类 型 。 

D complex64 和 complex128: 单 精 度 和 双 精 度 复数 类 型 。 

口 数组 可 以 用 任何 带 索 引 的 数值 类 型 表示 ， 比 如 float32[:] 就 是 一 维 浮 点 数 数组 类 型 ， 
int32[:，:] 就 是 二 维 整 型 数组 。 


(2) 其 他 配置 


除了 及 时 编译 ， 还 有 两 个 编译 选项 可 以 添加 到 ej it 装饰 咒 上 。 这 两 个 选项 将 帮助 我 们 完成 
Numba 优 化 。 选 项 具体 描述 如 下 。 


(a) 没有 GIL 

无 论 何 时 ， 只 要 我 们 的 代码 用 原始 类 型 优化 (不 是 用 Python 类 型 )，GIL ( 第 6 章 介绍 过 ) 就 
不 再 必要 了 。 

有 一 种 方法 可 以 禁止 GIL。 我 们 可 以 把 aogil=True 属 性 传 到 装饰 器 。 这 样 我 们 就 可 以 用 多 
线程 运行 Python 代码 (或 者 说 是 Numba 代 码 ) To 

也 就 是 说 ， 只 要 不 再 受 GI 的 限制 ， 你 就 可 以 处 理 多 线程 系统 的 常见 问题 了 ( 一致 性 、 数 据 
同步 、 竞 态 条 件 等 )。 

(b) 无 Python 模 式 

这 个 选项 可 以 让 我 们 设置 Numba 的 编译 模式 。 默 认 设置 时 ， 它 将 在 模式 之 间 跳 转 。Numba 将 
针对 需要 优化 的 代码 自动 设置 对 应 的 优化 模式 。 

一 共有 两 种 模式 。 一 种 是 object 模 式 。 它 产生 的 代码 可 以 处 理 所 有 Python 对 象 ， 并 用 C API 
完成 Python 对 象 上 的 操作 。 另 一 种 是 nopython 模 式 ， 它 可 以 不 调用 C API 而 生成 更 高 效 的 代码 。 
唯一 的 问题 是 ， 只 有 一 部 分 函数 和 方法 可 以 使 用 。 

如 果 Numba 不 利用 循环 JIT (loop-jitting ) 方法 ，object 模 式 就 不 会 产生 更 快 的 代码 (就 是 
说 循环 可 以 被 提取 然后 编译 成 nopython 模 式 )。 


















































































































































我 们 可 以 用 Numba 把 代码 强制 转换 成 nopython 模 式 ， 如 果 转 换 失败 就 会 产生 错误 。 可 以 用 


下 面 的 代码 实现 : 


@jit (nopython=True) 
def add2(a, b): 
return a + b 
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nopython 模 式 的 问题 在 于 它 有 一 些 限制 ， 除 了 这 种 模式 支持 的 Python 子 集 范 围 有 限 之 外 ， 
还 有 : 


O 函数 里 表示 数值 的 所 有 原生 类 型 都 可 以 被 引用 
O 函数 里 不 可 以 分 配 新 内 存 


另外 ， 由 于 使 用 循环 JIT 方 式 ， 被 优化 的 循环 内 部 不 能 产生 返回 状态 。 和 否则 ， 这 种 情况 不 适 
合 优化 。 


下 面 ， 让 我 们 用 一 段 示例 代码 来 演示 优化 的 过 程 : 




















def sum(x, y): 
array = np.arange(x * y).reshape(x, y) 
sum = 0 
for i in range(x): 
for j in range(y): 
sum += array[i, j] 
return sum 


Et TRASH A Numbah iio XP eB A RNIT , tL RR (loop-lifting )。 为 了 让 
代码 如 预期 运行 ， 我 们 用 Python REPL 模 式 : 














Python 2.7.9 |Continuum Analytics, Inc.| (default, Apr 14 2015, 12:54:25) 
[GCC 4.4.7 20120313 (Red Hat 4.4.7-1)] on linux2 
Type "help", "copyright", "credits" or "license" for more information. 
Anaconda is brought to you by Continuum Analytics. 
Please check out: http://continuum.io/thanks and https://binstar.org 
>>> from numba import jit 
>>> import numpy as np 
>>> (jit 
. def sum_auto jitting(x, y): 
array = np.arange(x * y).reshape(x, y) 
sum = 0 
for i in range(x): 
for j in range(y): 
sum += array[i, j] 
return sum 


>>> 

>>> sum auto jitting(2,65) 

8385 

>>> sum auto jitting.inspect types() 





另外 ， 我 们 还 直接 使 用 了 函数 的 inspect_types 方 法 。 这 样 做 的 好 处 是 可 以 看 到 函数 的 源 
代码 。 这 样 在 匹配 Numba 生 成 的 机 器 码 时 ， 可 以 和 源 代 码 进行 对 照 。 

上 面 这 个 方法 的 输出 结果 可 以 帮助 我 们 理解 Numba 优 化 背后 的 含义 。 更 具体 地 说 ,可 以 看 到 
具体 的 引用 类 型 ， 是 否 进行 了 自动 优化 ， 以 及 每 行 Python 代码 被 翻译 成 多 少 行 代码 。 

让 我 们 看 看 inspect_types 方 法 可 以 从 代码 中 获得 哪些 输出 结果 ( 这 个 结果 会 比 REPL 更 具 
体 )。 
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T 注意 下 面 的 结果 是 有 删节 版 本 。 如 果 你 想 研究 完整 版 , 可 以 在 自己 的 电脑 上 


运行 。 


sum auto jitting (int64, int64) 


# File: «ipython-input-2-ff9f4104cbe2» 


# --- LINE 1 --- 
ejit 
# --- LINE 2 --- 


def sum auto jitting(x, y): 


# --- LINE 3 --- 

# label 0 

d x - arg(0, name-x) :: pyobject 
d y - arg(1, name-y) :: pyobject 


d $0.1 = global(np: «module 'numpy' from 
'/home/fernando/miniconda/lib/python2.7/site-packages/numpy/. init  .pyc'») 
pyobject 


d $0.2 = getattr(value-$0.1, attr=arange) :: pyobject 
# del $0.1 

# $0.5 =x * y :: pyobject 

d $0.6 = call $0.2($0.5) :: pyobject 

# del $0.5 

# del $0.2 

d $0.7 = getattr(value-$0.6, attr=reshape) :: pyobject 
# del $0.6 

d $0.10 = call $0.7(x, y) :: pyobject 

# del $0.7 

d array = $0.10 :: pyobject 

# del $0.10 





array = np.arange(x * y).reshape(x, y) 


# --- LINE 4 --- 

d Sconst0.11 = const (int, 0) :: pyobject 
d sum = $constO0.11 :: pyobject 

# del $const0.11 

sum = 0 

# --- LINE 5 --- 


# jump 40.1 

# label 40.1 

# Sconst40.1.1 = const(LiftedLoop, LiftedLoop(<function sum auto jitting at 
0x0000000007BB7F28»)) :: XXX Lifted Loop XXX 

d $40.1.6 = call $const40.1.1(y, x, sum, array)  :: XXX Lifted Loop XXX 

# del y 

# del x 

# del sum 
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dE dE db dE dE db db db db 


for X 


# 


del array 

del $const40.1.1 
$40.1.8 = 
del $40.1.6 
$40.1.7 
del $40. 
sum.1 = $40.1.7 :: pyobject 
del $40.1.7 

jump 103 


static_getitem(index=0, value-$40.1.8) 
.8 


nd 


in range(x): 


--- LINE 6 --- 


for j in range(y): 


dE dE db db dk 


# --- LINE 7 --- 


sum += array[i, j] 


LINE 8 --- 


label 103 
$103.2 = cast (value=sum.1) :: pyobject 
del sum.1 
return $103.2 


return sum 


Loop at 


dE dE db db od 


@jit 


The function contains lifted loops 


line 5 


Has 1 overloads 
File: «ipython-input-2-ff9f4104cbe2» 
--- LINE 1 --- 


& --- LINE 2 --- 


def sum auto jitting(x, y): 


# --- LINE 3 --- 

array = np.arange (x * y).reshape(x, y) 

# --- LINE 4 --- 

Sum = 0 

d --- LINE 5 --- 

# label 37 

# y = arg(0, name-y) :: int64 

# x = arg(1, name-x) :: int64 

# sum = arg(2, name=sum) :: int64 

# array = arg(3, name=array) :: array(int32, 2d, C) 


exhaust iter(count-1, value-$40.1.6) :: pyobject 


pyobject 
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$37.1 = global(range: «class 'range'») :: range 
$37.3 = call $37.1(x) :: (int64,) -> range state int64 
del x 
del $37.1 
$37.4 = getiter(value-$37.3)  :: range iter int64 
# del $37.3 

Sphi50.1 = $37.4 :: range iter int64 
del $37.4 
jump 50 

label 50 
$50.2 = iternext (value=$phi50.1) :: pair<int64, bool» 
$50.3 = pair first(value-$50.2)  :: int64 
$50.4 = pair second(value-$50.2)  :: bool 
del $50.2 
$phi53.1 = $50.3 :: int64 
del $50.3 
branch $50.4, 53, 102 

label 53 
dw Sohi53.l Fh intel 
del $phi53.1 

for i in range(x): 





--- LINE 6 —-- 
d jump 56 
label 56 
# $56.1 = global(range: «class 'range'») :: range 
$56.3 - call $56.1(y) :: (int64,) -» range state int64 
del $56.1 
d $56.4 - getiter(value-$56.3) :: range iter int64 
del $56.3 
d $phi69.1 = $56.4 :: range iter int64 
del $56.4 
jump 69 
# label 69 
$69.2 = iternext (value-$phi69.1) :: pair<int64, bool» 
$69.3 = pair first(value-$69.2)  :: int64 
$69.4 = pair second(value-$69.2)  :: bool 
del $69.2 
$phi72.1 = $69.3 :: int64 
del $69.3 
branch $69.4, 72, 98 
label 72 
j = $phi72.1 :: int64 


del $phi72.1 
7 


for j in range(y): 














# --- LINE 7 --- 

$72.6 = build tuple(items-[Var(i, «ipython-input-2-ff9f4104cbe2» (5)), 
Var(j, «ipython-input-2-ff9f4104cbe2» (6))]) :: (int64 x 2) 

del j 

$72.7 = getitem(index-$72.6, value-array) :: int32 

# del $72.6 
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3t 


$72.8 = inplace_binop(immutable_fn=+, rhs-$72.7, lhs=sum, fn=+=) 
int64 
del $72.7 
gum = $72.8 :: int64 
del $72.8 
jump 69 
label 98 
del i 
del $phi72.1 
del $phi69.1 
del $69.4 
jump 99 
label 99 
jump 50 
label 102 
del y 
del array 
del $phi53.1 
del $phi50.1 
del $50.4 
jump 103 
label 103 
$103.2 = build tuple(items-[Var(sum, «ipython-input-2-ff9f4104cbe2» 
int64 x 1) 
del sum 
$103.3 - cast(value-$103.2) :: (int64 x 1) 
del $103.2 
return $103.3 


dE dE db dE Ob db db dE dE db db dE db db db db db db db db db dB db db dE dk 


sum «- array[i, j] 
# --- LINE 8 --- 
return sum 


要 理解 前 面 的 输出 结 的 含义 , 需要 注意 看 每 一 行 源 代码 的 编译 过 程 都 是 由 单独 的 行 号 开始 
的 。 后 面 跟 着 的 是 这 一 行 生 成 的 汇编 指令 ， 最 后 你 可 以 看 到 不 加 注释 的 Python 源 代码 。 
注意 看 LiftedLoop 行 。 在 这 一 行 你 会 看 到 Numba 的 优化 代码 。 还 需要 注意 在 许多 行 最 后 引 


用 的 Numba 类 型 。 无 论 何 时 你 看 到 一 个 pyobject 类 型 ， 都 不 是 原生 类 型 ， 而 是 普通 Python 类 型 
的 封装 版 。 


2. 在 GPU 上 运行 代码 


前 面 已 经 提 过 ，Numba 代 码 可 以 运行 在 CPU 和 GPU 上 。 其 实 , 在 GPU 上 运行 并 行程 序 可 以 进 
一 步 提升 性 能 ， 比 CPU 上 运行 更 快 。 
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更 具体 地 说 就 是 ，Numba 支 持 CUDA 编 程 ( http;//www.nvidia.com/object/cuda home new. 
html )， 按 照 CUDA 模 式 的 规则 把 一 部 分 Python 代 码 翻 译 成 CUDA 核 心 与 设备 支持 的 语言 形式 。 

CUDA 是 Nvidia 开发 的 并 行 计 算 平 台 和 编程 模式 。 它 可 以 利用 GPU 获得 更 大 的 速度 提升 。 

为 GPU 编程 是 个 较 大 的 主题 ,可 以 写 一 整 本 书 ， 所 以 这 里 不 再 介绍 更 多 细节 。 我 们 只 说 明 
Numba 具 有 这 种 能 力 ， 通 过 装饰 器 ecuqa .jit 就 可 以 实现 。 关 于 这 个 主题 的 具体 文档 ， 请 参考 
http://numba.pydata.org/numba-doc/0.18.2/cuda/index.html 的 内 容 。 

































































7.2 pandas 工具 





























本 章 将 介绍 的 第 二 个 工具 是 pandas ( http://pandas.pydata.org/ )。 它 是 一 个 开源 的 Python 库 ， 为 
用 户 提供 高 效 、 易 用 的 数据 结构 和 数据 分 析 工 具 。 

这 个 工具 的 诞生 背景 是 ，2008 年 程序 员 Wes McKinney 在 做 财务 数据 量化 分 析 的 时 候 ， 需 要 
一 个 高 效 的 解决 方法 ， 于 是 发 明了 pandas。 这 个 库 已 经 成 为 Python 社区 中 最 流程 和 最 活跃 的 项 目 
之 一 o 

用 pandas 写 代码 时 在 性 能 方面 的 一 个 亮点 , 是 pandas 的 关键 代码 都 是 用 Cython 写 的 (第 6 章 已 
经 介绍 过 )。 





























7.2.1 安装 pandas 























由 于 pandas 很 流行 ， 所 以 有 很 多 方法 可 以 安装 到 你 的 系统 上 。 具 体 方法 由 安装 类 型 决定 。 


推荐 直接 用 Anaconda 的 Python 发 行 版 进行 安装 ( docs.continuum.io/anaconda/ )， 里 面包 含 
pandas 包 和 SciPy 相 关 的 包 ( 比如 NumPy、Matplotlib 等 )。 这样 ， 在 你 下 载 完 之 后 ,里 面 就 已 经 有 
100 多 个 包 了 ， 而 且 安 装 过 程 中 也 下 载 了 100 多 兆 字 节 的 数据 。 


如 果 你 不 想 安 装 Anaconda 的 完整 版 , 可 以 使 用 miniconda 包 管理 器 (在 前 面 介 绍 Numba 的 安 
装 过程 时 已 经 介绍 过 )。 采 用 这 个 方法 时 ， 你 可 以 用 condaa 命 令 进行 安装 。 


(1) 用 下 面 的 代码 创建 一 个 新 的 Python 虚拟 环境 : 








$ conda create -n my_new_environment python 
(2) 启动 虚拟 环境 : 


$ source activate my new environmen 





(3) 最 后 安装 pandas: 


$ conda install pandas 
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另外 ，pandas 也 可 以 用 pip 命 令 行 工 具 按照 下 面 的 命令 进行 安装 
性 最 好 的 方法 ): 


$ pip install pandas 


最 后 ， 还 可 以 通过 操作 系统 的 包 管 理 需 进行 安装 。 








Linux 发 行 版 软件 库 链 接 




















安装 方法 





Debian packages.debian.org/search?keywords=pandas&searchon=names 
&suite=all&section=all 


Ubuntu http://packages.ubuntu.com/search?keywords=pandas 
&searchon=names&suite=all&section=all 


OpenSUSE 和 Fedora http://software.opensuse.org/package/python-pandas? 
search_term=pandas 


$ sudo apt-get install 
python-pandas 


$ sudo apt-get install 
python-pandas 


$ zypper in python-pandas 


如 果 你 用 前 面 几 个 安装 方法 都 没 安 装 成 功 ， 可 以 从 官方 网 站 http:/pandas.pydata.org/pandas- 


docs/stable/install.html 里 找到 安装 方法 。 


7.2.2 FA pandas 做 数据 分 析 





在 大 数据 和 数据 分 析 的 世界 里 ,知道 正 确 的 工具 就 是 先 手 棋 ( 当然 , 这 只 对 了 一 半 , 还 有 
半 是 要 学 会 使 用 工具 )。 对 于 数据 分 析 和 一 些 临时 性 的 数据 整理 任务 , 常用 手段 是 使 用 编程 语言 。 




















编程 语言 比 标准 工具 更 具 灵 活性 。 

















它 提供 了 缓和 并 简化 “数据 争论 ”( data wrangling ) 任务 的 工具 。 
口 把 大 数据 文件 载 人 内存 或 保存 为 其 他 形式 。 




















图 形 。 
口 简单 的 语法 可 以 实现 数据 补 全 、 残 缺 字 段 等 功能 。 





























在 数据 分 析 领 域 ， 有 两 种 语言 主导 这 场 性 能 竞赛 : R 和 Python。Python 可 能 让 人 震惊 ， 因 为 
前 面 我 们 已 经 看 到 ， 在 数据 处 理 方面 Python 的 速度 显然 是 不 够 快 的 。 这 就 是 pandas 被 创造 出 来 的 


O 与 mnatplotlib (http:/matplotlib.org/ ) 轻松 整合 ， 这 样 用 几 行 代码 就 可 以 实现 交互 式 的 


下 面 让 我 们 用 一 个 简单 的 例子 来 演示 pandas 如 何在 实现 代码 高 性 能 的 同时 ,还 改善 了 代码 的 


可 读 性 。 读 取 的 文件 是 美国 纽约 市 公共 数据 (NYC OpenData ) 网 站 (https://data.cityofnewyork.us/ 
Social-Services/311-Service-Requests-from-2010-to-Present/erm2-nwe9 ) 从 2010 年 至 今 的 311 服 务 请 





求 数据 CSV 文 件 (500M )。 














代码 试图 通过 纯 Python 和 pandas 两 种 形式 统计 文件 中 每 个 邮政 编码 的 访问 次 数 : 




















import pandas as pd 
import time 


7.2 pandas 工具 
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import csv 
import collections 


SOURCE FILE - './311.csv' 


def readCSV(fname): 
with open(fname, 'rb') as csvfile: 
reader - csv.DictReader(csvfile) 
lines - [line for line in reader] 
return lines 


def process (fname): 
content = readCSV(fname) 
incidents_by_zipcode = collections.defaultdict (int) 
for record in content: 
incidents_by_zipcode[toFloat (record['Incident Zip'])] += 1 


return sorted(incidents_by_zipcode.items(), reverse=True, key=lambda a: 


int (a[1]))[:10] 


def toFloat (number): 
try: 
return int (float (number) ) 
except: 
return 0 


def process_pandas (fname) : 
df = pd.read csv(fname, dtype={ 


‘Incident Zip': str, 'Landmark': str, 'Vehicle Type': 


Direction': str}) 

df['Incident Zip'] = df['Incident Zip'].apply(toFloat) 

column, names = list (df.columns.values) 
("Incident Zip") 

column_names.remove ("Unique Key") 

return df.drop(column names, axis-1).groupby(['Incident Zip'], 
sort-False).count().sort('Unique Key', ascending-False).head(10) 


column names.remove 


init - time.clock() 
total = process(SOURCE FILE) 


endtime - time.clock() - init 
for item in total: 
print "%$s\t%s" $ (item[0], item[1]) 


9. 


print "(Pure Python) time: %s" % (endtime) 


init - time.clock() 

total - process pandas(SOURCE FILE) 
endtime - time.clock() - init 

print total 

print "(Pandas) time: $s" % (endtime) 


SEI, 


'Ferry 
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上 面 的 process 函 数 很 简单 ， 只 有 5$ 行 代码 。 它 就 是 加 载 文件 ， 做 一 些 处 理 ( 主要 是 手工 统 
计 和 汇总 )， 对 结果 排序 并 提取 前 10 个 邮政 编码 。 我 们 用 的 aefaultdaict 数 据 类 型 是 亮点 ， 在 前 
面 的 章节 中 为 了 优化 函数 性 能 曾经 使 用 过 。 

男 一 方面 , process_pandas 气 数 做 的 事情 基本 相同 , 只 不 过 是 用 pandas 实 现 。 有 几 行 代码 ， 
不 过 都 非常 容易 理解 。 它 们 显然 都 是 “面向 数据 争论 ”( data-wrangling oriented ) 的 ， 你 会 发 现 没 
有 使 用 循环 语句 。 我 们 可 以 通过 字段 名 称 自动 接 和 人 每 一 列 数据 ,然后 对 每 组 数据 应 用 函数 ,中 间 
不 需要 使 用 任何 循环 迭代 。 


前 面 的 程序 的 运行 结果 如 下 图 所 示 。 













































































126452 
13525 
12044 
10413 
10028 
9622 
9391 
8974 
8896 
8883 
(Pure Python) time: 13.068255 


uliyue ney 


126452 
13525 
12044 
10413 
10028 

9622 
9391 
8974 
8896 
8883 
(Pandas) time: 10.234595 


你 会 发 现 用 pandas 简 单 地 重新 实现 程序 后 ， 代 码 的 运行 时 间 减 少 了 3 秒 钟 。 让 我 们 继续 深入 
研究 pandas 的 API， 以 便 进 一 步 优化 性 能 。 代 码 还 可 以 做 两 方面 改进 ， 而 且 都 与 使 用 了 大 量 参数 
的 read_csv 方 法 有 关 。 我 们 关心 的 两 个 参数 如 下 。 

O usecols: 这 个 参数 可 以 设置 我 们 需要 返回 的 列 ， 帮 助 我 们 快速 地 从 40 多 列 中 提取 需要 
的 两 列 数据 。 这 样 我 们 在 返回 结果 之 前 就 不 需要 再 写 删 除 多 余 列 的 逻辑 了 。 
口 converters: 这 个 参数 可 以 自动 利用 函数 转换 数据 类 型 ， 不 需要 再 使 用 apply 方 法 进行 





















































转换 。 
我 们 的 新 函数 如 下 所 示 : 
def process pandas(fname): 
df - pd.read csv(fname, usecols-['Incident Zip', 'Unique Key'], converters-( 
'Incident Zip': toFloat}, dtype={'Incident Zip': str}) 
return df.groupby(['Incident Zip'], sort-False).count().sort('Unique Key', 


ascending-False).head(10) 
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就 是 这 样 ,现在 只 需要 两 行 代码 ! 第 一 行 的 读 取 函 数 为 我 们 做 了 大 量 工作 ， 然 后 我 们 就 是 简 
单 地 分 组 、 计 数 和 排序 。 现 在 ， 让 我 们 与 前 面 的 结果 比较 一 下 ， 











126452 
13525 
12044 
10413 
10028 


) time: 13.059886 
Unig 


\ 


快 10 秒 


10028 
9622 
9391 
8974 
8896 


我 们 的 算法 在 性 能 上 了 10 秒 提升 ， 需 要 处 理 的 代码 也 大 大 减少 ， 可 以 说 是 “双赢 ”。 


代码 还 有 一 个 优点 ， 就 是 扩展 性 。pandas 的 函数 可 以 在 30 秒 内 直接 读 取 5.9G 的 数据 文件 。 而 
我 们 的 纯 Python 代 码 是 不 可 能 达到 这 一 点 的 ， 如 果 没 有 足够 的 计算 资源 也 不 可 能 进行 数据 处 理 。 







































































7.3 Parakeet 


这 是 一 个 最 明确 的 Python 数 据 处 理工 具 。 说 它 明确 是 因为 它 只 支持 一 小 部 分 Python 和 NumPy 
组 合 的 数据 类 型 。 因 此 ， 如 果 你 想 解决 更 普遍 的 任务 , 它 可 能 不 是 你 的 选择 , 但 是 如 果 你 觉得 可 
以 用 它 解 决 问题 ， 就 继续 往 下 看 。 


要 更 具体 地 了 解 Parakeet 的 限制 (通常 只 在 数值 计算 方面 有 效 )， 我 们 总 结 了 一 个 列表 。 


a 文 持 的 数据 类 型 包括 Python 的 数字 、 元 组 、 列 表 和 NumPy 的 数组 。 

口 Parakeet 会 自动 对 数据 类 型 执行 向 上 转换 ， 就 是 说 ， 无 论 何 时 遇 到 两 种 不 同类 型 的 数据 ， 
都 会 被 强制 向 上 转换 成 统一 类 型 。 例 如 ，Python 表 达 式 1.0 if b else false 会 被 转换 
成 1.0 if b else 0.0, 但 是 当 自 动 转换 失败 时 ,例如 1.0 if b else (1,2)， 在 编 
译 过 程 中 就 会 出 现 转换 错误 ( 见 下 一 条 )。 

口 Parakeet 里 面 不 能 捕捉 和 处 理 异 常 ; 也 不 支持 preak 和 continue 语 句 。 这 是 因为 Parakeet 
Æ H SSA 结构 展 示 程 序 的 ( http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.45. 
4503 )。 












































































































































156 9: 7% M Numba, Parakeet fe pandas 实现 极速 数据 处 理 

















O 数组 传播 ( array broadcasting, NumPyB EE ) 是 通过 对 数组 参数 类 型 显 式 地 映射 操作 实 
Bor 这 种 实现 方式 的 限制 是 它 不 能 实现 多 维 数组 传播 ( 比如 8x2x3 和 7x2 数 组 )。 

只 实现 了 一 小 部 分 Python 和 NumPy 的 内 置 函 数 。 完 整 的 函数 列表 请 见 https:/github.comy/ 
pom n NUM MM 
a 列表 综合 表达 式 作为 数组 综合 表达 式 处 理 。 

















7.3.1 安装 Parakeet 








Parakeet 的 安装 十 分 简单 。 如 果 你 用 pip 安 装 也 不 难 。 简 单 地 输入 下 面 命 令 即 可 : 





$ pip install parakeet 
这 样 就 搞定 了 ! 
如 果 你 想 通 过 源 代码 安装 ， 可 能 需要 提前 安装 一 些 依 赖 。 安 装 包 列表 如 下 所 示 : 




















LI Python 2.7 

O dsltools ( https://github.com/iskandr/dsltools ) 

O nose, Hj TX (https://nose.readthedocs.org/en/latest/ ) 
QO NumPy (http://www.scipy.org/install.html ) 

O appDirs ( https://pypi.python.org/pypi/appdirs/ ) 

O gcc 4.4+， 用 于 OpenMP 后 端 支持 的 默认 值 








如 果 你 运行 的 是 Windows 系 统 ，32 位 系统 版 本 有 官方 支持 。 如 果 是 64 位 系统 


就 没 那 么 好 运 了 ， 没 有 官方 支持 的 文档 。 
~> 如 果 你 是 OS X 用 户 ， 可 能 需要 用 HomeBrew 安 装 一 个 新 版 的 C 编 译 器 ， 因 为 


clang 和 gcc 都 可 能 没有 及 时 更 新 。 


当 安 装 完 依赖 之 后 ， 从 https:/Wgithub.conyiskandrparakeet 下 载 源 代码 ， 并 运行 下 面 的 命令 即 
可 (在 代码 文件 夹 内 ): 


$ python setup.py install 


7.3.2 Parakeet 是 如 何 工 作 的 




















下 面 不 再 深入 介绍 Parakeet 背 后 的 理论 细节 ， 让 我 们 看 看 如 何 用 它 来 优化 代码 。 这 样 ， 不 翻 
文档 ， 你 也 能 了 解 这 个 模块 。 








这 个 库 的 主要 结构 是 在 函数 上 使 用 的 一 个 装饰 器 ， 因 此 Parakeet 会 尽 可 能 地 控制 和 优化 你 上 
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代码 。 


为 了 完成 简单 的 测试 ， 我 们 用 Parakeet 网 站 上 的 一 个 简单 示例 来 演示 ， 计 算 一 个 4000*4000 
代码 将 用 两 种 方式 执行 同样 的 函数 ， 一 种 是 Parakeet 方 式 ， 另 一 种 是 未 优化 的 
方式 。 然 后 会 测量 两 种 方式 处 理 同样 输入 数据 的 运行 时 间 : 


from parakeet import jit 
import random 

import numpy as np 
import time 











@jit 
def allpairs_dist_prkt(X, Y): 
def dist(x, y): 
return np.sum((x-y) **2) 
return np.array([[dist(x, y) for y in Y] for x in X]) 


def allpairs dist py(X, Y): 
def dist(x, y): 
return np.sum((x-y)**2) 
return np.array([[dist(x, y) for y in Y] for x in X]) 


input a - [random.random() for x in range(0, 10000)] 
input b - [random.random() for x in range(0, 10000)] 
print a eS een eee eEI EA n ERES J 


init = time.clock() 

allpairs_dist_py(input_a, input_b) 

end = time.clock() 

print "Total time pure python: %s" % (end - init) 


print 

init = time.clock() 
allpairs dist prkt(input a, input b) 

end - time.clock() 

print "Total time parakeet: %s" $ (end - init) 

















在 一 个 这 处 理 器 、8G RAM 的 电脑 上 ， 我 们 可 以 获得 的 运行 时 间 如 下 : 


Total time pure python: 73.19119 





Total time parakeet: 0.088978 














上 图 显示 了 通过 这 个 函数 性 能 得 到 的 显著 提升 〈 通 过 Parakeet 编 译 了 一 部 分 Python 类 型 )。 


装饰 器 函数 是 为 一 些 函 数 提供 的 模板 ， 一 个 类 型 一 个 〈 在 我 们 的 例子 中 ， 只 有 一 个 )。 新 水 
数 在 被 Parakeet 翻 译 成 机 需 码 之 前 ， 可 以 通过 不 的 方式 进行 优化 。 
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型 ， 所 以 它 不 能 作为 通用 的 性 能 优化 手段 ( 实际 情况 是 Parakeet 的 使 用 场景 十 分 


需要 注意 的 是 ， 即 性 能 得 到 了 优化 ，Parakeet 刀 只 支持 一 部 分 Python 数据 类 
有 限 )。 























在 这 一 章 里 ， 我们 介绍 了 Python 的 三 种 数据 处 理工 具 ， 并 且 介 绍 了 具体 的 使 用 场景 (但 是 性 
EE 卓越 )， 比 如 Parakeet， 以 及 更 通用 的 Numba 和 pandas。 对 于 这 三 个 工具 ， 我 们 都 介绍 了 相关 的 
基础 知识 : 简介 、 安 装 和 示例 。 它 们 还 有 很 多 功能 ， 你 可 以 根据 自己 的 需求 去 发 气 。 不 过 ， 本 章 
的 内 容 足 以 让 你 找到 正确 的 方向 。 


下 一 章 也 是 最 后 一 章 , 我 们 将 介绍 一 个 实际 的 性 能 优化 示例 。 我 们 将 把 在 本 书 中 学 到 的 所 有 
知识 都 应 用 其 中 。 











anb 














第 8 章 


付 诸 实践 











欢迎 来 到 本 书 的 最 后 一 章 。 如 果 你 一 直 看 到 这 里 , 一 定 已 经 学 会 了 不 少 优化 技术 , MART 
针对 Python 编程 语言 的 技术 ， 也 有 可 用 于 其 他 语言 的 通用 技术 。 

你 也 学 习 过 性 能 分 析 和 数据 可 视 化 工具 。 我 们 还 专门 介绍 过 Python 在 科学 数据 处 理 领域 的 优 
化 技术 。 掌 握 了 这 些 工具 ， 你 就 可 以 优化 代码 的 性 能 。 

在 这 最 后 一 章 , 我 们 将 介绍 一 个 实际 的 示例 ,其 中 会 涵盖 前 几 章 介 绍 过 的 所 有 技术 (不 过 前 
面 介绍 的 部 分 工具 可 以 相互 替代 ， 所 以 全 部 都 用 不 见得 会 取得 更 好 的 效果 )。 我 们 将 编写 一 段 初 
始 代码 ,测量 其 性 能 ， 然 后 通过 优化 过 程 重 写 代码 ， 并 重新 测量 性 能 。 














8.1 需要 解决 的 问题 
在 开始 思考 编写 初始 代码 之 前 ， 让 我 们 介绍 一 下 需要 解决 的 问题 。 


鉴于 本 书 的 范围 有 限 ， 用 一 个 大 而 全 的 示例 可 能 不 太 合适 ， 所 以 我 们 重点 解决 一 个 小 问题 。 
小 问题 可 以 让 我 们 有 的 放 矢 ， 而 且 也 可 以 避免 在 这 么 短 的 时 间 内 承担 大 量 的 优化 任务 。 

为 了 增加 趣味 性 ， 我 们 把 问题 分 成 了 两 部 分 。 
口 第 一 部 分 : 这 部 分 的 主要 任务 是 找 出 要 处 理 的 数据 。 我 们 并 非 简单 地 从 URL 下 载 数据 ， 
而 是 从 网 站 上 抓 取 。 
口 第 二 部 分 : 这 部 分 的 重点 是 处 理 在 第 一 部 分 获得 的 数据 。 在 这 一 步 ， 我 们 将 实现 大 量 的 

CPU 相关 的 操作 ， 统 计 我 们 收集 的 数据 。 

对 于 这 两 部 分 内 容 ， 我 们 首先 都 会 给 出 解决 问题 的 原始 代码 ， 暂 时 不 考虑 性 能 问题 。 之 后 ， 

我 们 会 分 别 对 两 个 解决 方案 进行 分 析 ， 并 尽 可 能 地 改善 性 能 。 






































8.1.1. 从 网 站 上 抓 取 数据 

我 们 要 抓 取 的 网 站 是 科幻 与 灵异 网 (Science Fiction & Fantasy, http://scifi.stackexchange. 
com/ )。 这 个 网 站 主要 是 回答 与 科幻 和 灵异 有 关 的 问题 。 它 类 似 于 StackOverflow ， 不 过 主要 是 面 
向 科幻 与 灵异 爱好 者 。 
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更 具体 地 说 , 我 们 想 抓 取 最 新 的 问题 列表 。 对 于 每 个 问题 ,我 们 获取 带 有 问题 和 所 有 答案 的 
页 面 。 当 所 有 的 抓 取 和 分 析 工 作 完 成 之 后 ， 我 们 会 把 相关 的 信息 保存 为 JSON 格 式 ， 方 便 后 面 进 
行 分 析 。 
虽然 我 们 要 处 理 HTML 页面， 但 是 我 们 并 不 需要 它们 。 所 以 我 们 要 去 掉 所 有 的 HITML 代 码 ， 
只 保存 下 面 的 内 容 : 


口 问题 的 标题 

口 问题 的 作者 

口 问题 的 内 容 (问题 的 具体 文字 ) 

O 答案 的 内 容 ( 如 果 存 在 ) 

口 答案 的 作者 

针对 这 些 信息 ,我 们 可 以 做 一 些 有 趣 的 后 期 处 理 ,并 获取 一 些 相 关 的 统计 结果 ( 稍 后 详细 讨论 )。 
程序 最 终 的 输出 结果 应 该 会 像 下 面 这 样 : 





n 














{ 
"questions": [( 

"title": "Ending of John Carpenter's The Thing", 

"body": "In the ending of John Carpenter's classic 1982 sci- 

fi horror film The Thing, 

igi. 

"author": "JMFB", 

"answers": [{ 
"body": "This is the million dollar question, 
Unfortunately, 


he is notoriously... 


" 
r 


"author": "Richard", 
Ivi 
"body": "Not to point out what may seem obvious, 
but Childs isn 't breathing. Note the total absence of ", 
"author": "user42" 
j 
pit 
"title": "Was it ever revealed what pedaling the bicycles in 
the second episode was doing ? ", 
"body" : "I'm going to assume they were probably some sort of 


turbine...electricity...something, 
but I 'd prefer to know 


for sure. 
"author": "bartz", 
"answers": [{ 
"body": "The Wikipedia synopsis states: most citizens 


make a living pedaling exercise bikes all day in order 
to generate power 

for their environment ", 

"author": "Jack Nimble" 
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}] 
}] 
} 


这 个 脚本 会 把 所 有 的 信息 都 保存 到 一 个 JSON 文 件 中 ， 有 具体 字段 会 在 代码 中 预先 定义 好 。 


我 们 要 让 初始 的 两 个 脚本 都 尽量 简单 。 也 就 是 说 ， 要 使 用 最 少 的 模块 。 在 这 个 案例 中 , 我 们 
使 用 的 主要 模块 如 下 所 示 。 











O Beautiful Soup ( http:/www.crummy.com/software/BeautifulSoup/ ): 这 个 模块 用 于 解析 
HTMIL 文 件 , 主 要 是 因为 它 提 供 了 一 整套 解析 网 页 的 API, 可 以 自动 识别 页 面 编 码 格式 ( 如 
果 你 处 理 页 面 编码 格式 的 经 验 很 丰富 ,可 能 会 嫌弃 这 个 功能 )， 以 及 使 用 CSS 样 式 选择 器 
(selector ) 遍历 HTML 结 构 树 。 

O Requests ( http://docs.python-requests.org/en/latest/ ): 这 个 模块 用 于 生成 HTTP 请 求 。 虽 然 


ENS 


Python 已 经 提供 了 相应 的 模块 ， 但 是 这 个 模块 简化 了 API， 而 且 通 过 更 加 具有 Python 风格 
的 方式 实现 网 络 请 求 。 



















































































你 可 以 通过 pip 命 令 行 工 具 安装 两 个 模块 : 
$ pip install requests beautifulsoup4 


我 们 为 了 获取 数据 将 要 抓 取 和 解析 的 页 面 如 下 图 所 示 。 


Questons Tags Users Badges Unanswered 





三 
What happened to the time portal in DS9 “Time’s Orphan”? eem d 


€—— s ais n 
Viewed 12 Times 
1 — pax It's some sort of time portal. From the chroniton signature, we think it sent Molly active Today 
about three hundred years into the past. 





is on a bonafied time portal. O'Brien says he's going to 
him do it in the episode. They figured out how to get it 








ime directive, the prime directive 
police, etc. from multiple series, so they do know that they 


are eventually going to us 





Did they study the portal further? Did O'Brien destroy it? Would the Federation really not use 
and study this technology once th ds on it? 






作者 ——8-. 





PS 可 以 获取 的 答案 列表 


Within 














he Dept o 
impregnable) vault to prevent their further use except in exceptional circumstances: 


into the 


Lucsly turned to see Director Andos standing in the door of the AD's office that had formerly 
been hers. "Agent Lucsly. Agent Dulmur. Would you join me, please?" she asked. Her 
rpowering in its authority. Kreinns nodded at her 
ur silently filed into the office 





Only it wasn't the office. Lucsly whirled around, recognizing the cavernous space 
surrounding him from his multiple visits here, most recently to secure the last of the 
ancient time portals excavated on the Bajoran colony world Golana over the past three 
years. He, Dulmur, and Andos were in the Eridian Vault. 


答案 的 作者 = Boo. on 
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8.1.2 ”数据 预 处 理 


Pets 


第 二 个 脚本 是 读 取 JSON 文 件 ， 然 后 进行 一 些 统计 分 析 。 为 了 获得 更 有 趣 的 分 析 结果 ， 我 们 
不 只 是 统计 每 个 用 户 提问 的 次 数 ( 虽然 我 们 也 会 获得 这 个 数据 )。 我 们 还 要 计算 下 面 的 信息 : 
a 


提问 最 多 的 10 名 用 户 
a 回答 最 多 的 10 名 用 户 
口 最 常 问 的 主题 

口 最 短 的 答案 

口 最 常用 的 10 个 短语 
口 答案 最 多 的 10 个 问题 


















































由 于 本 书 的 主题 是 性 能 ,而 不 是 自然 语言 处 理 ( Natural Language Processing, NLP )， 所 以 我 
们 不 会 深入 介绍 脚本 中 关于 NLP 的 部 分 代码 。 我 们 将 集中 精力 利用 目前 所 学 的 Python 优化 方法 改 
善 代码 的 性 能 。 











我 们 在 这 个 脚本 中 使 用 的 唯一 一 个 非 标 准 模 块 是 NLTK (http:/www.nltk.org/ )， 用 来 实现 自 
然 语言 处 理 的 功能 。 


8.2 编写 初始 代码 
根据 前 面 的 描述 ， 让 我 们 把 所 有 将 来 要 优化 的 代码 都 列 出 来 。 


下 面 几 点 的 第 一 条 非常 简单 : 一 个 单 文件 脚本 ,可 以 像 前 面 介绍 的 那样 ， 抓 取 数 据 并 保存 为 
JSON 格 式 。 流 程 很 简单 ， 顺 序 如 下 所 示 。 


(1) 逐 页 查询 问题 列表 。 

(2) 收集 每 一 页 的 问题 链接 。 

(3) 收集 每 一 个 链接 指向 的 页 面 里 的 信息 。 
(4) 移动 到 下 一 页 ， 重复 前 面 3 点 。 

(5) 最 终 把 所 有 数据 保存 为 JSON 格 式 。 
代码 如 下 所 示 : 

from bs4 import BeautifulSoup 


import requests 
import json 















































SO URL = "http://scifi.stackexchange.com" 
QUESTION LIST URL = SO URL + "/questions" 
MAX PAGE COUNT - 2 
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global_results 


[] 


initial page = 1 # 首页 就 是 第 一 页 


def 


def 


def 


def 


get_author_name (body) : 
link name = body.select(".user-details a") 
if len(link name) -- 
text name - body.select(".user-details") 
return text name[0].text if len(text name) » 0 else 'N/A' 
else: 
return link name[0].text 


get question answers (body): 
answers - body.select(".answer") 
a-data e rf] 
if len(answers) -- O0: 

return a data 


for a in answers: 
data = { 
'body': a.select(".post-text")[0].get text(), 
'author': get author. name (a) 
} 
a_data.append (data) 
return a_data 


get_question_data(url): 
print "Getting data from question page: $s " % (url) 
resp - requests.get (url) 


if resp.status code !- 200: 
print "Error while trying to scrape url: %s" % (url) 
return 


body soup = BeautifulSoup(resp.text) 

# 定义 一 个 将 被 转换 成 JSON 格 式 的 输出 词典 

q_data = { 
'title': body_soup.select ('#question-header .question-hyperlink') [0].text, 
'body': body_soup.select ('#question .post-text')[0].get text(), 
'author': get author name (body soup.select(".post-signature.owner")[0]), 
'answers': get question answers (body soup) 

} 


return q_data 


get_questions_page(page_num, partial_results): 

print M == = = = — — —— — = — 
print " Getting list of questions for page $s" $ (page num) 
print D SSS SSS qp PG P SS Er SS SS SS SS SS SS SS p Lr 


url = QUESTION_LIST_URL + "?sort=newest&page=" + str(page_num) 
resp = requests.get (url) 
if resp.status_code != 200: 
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9. 


print "Error while trying to scrape url: %s" % (url) 
return 

body = resp.text 

main soup = BeautifulSoup (body) 


# 获取 每 个 问题 的 网 络 链接 
questions = main soup.select('.question-summary .question-hyperlink' ) 
urls = [SO URL + x['href'] for x in questions] 
for url in urls: 
q data = get question data (url) 
partial. results.append(q data) 
if page num « MAX PAGE COUNT: 
get questions page(page num + 1, partial, results) 


get questions page(initial page, global. results) 
with open('scrapping-results.json', 'w') as outfile: 
json.dump(global results, outfile, indent-4) 


print '---------------------------------------------------- ' 
print 'Results saved' 


检查 前 面 的 代码 ,你 会 发 现 我 们 实现 了 目标 。 现 在 , 我 们 只 使 用 了 几 个 必要 的 外 部 库 ， 以 及 
Python 自 带 的 JSON 模 块 。 


另 一 方面 ， 第 二 个 脚本 被 分 割 成 两 部 分 ， 以 方便 组 织 。 


Q analyzer.py: 这 个 文件 里 包含 关键 代码 。 其 作用 是 把 JSON 文 件 加 载 到 一 个 aict 结 构 中 ， 
执行 一 系列 计算 。 
Q visualizer.py: 这 个 文件 里 简单 地 包含 了 一 组 函数 ， 用 来 可 视 化 分 析 结 果 。 


让 我 们 看 看 这 两 个 文件 的 代码 ,第 一 组 函数 的 功能 是 用 来 完成 清洗 数据 .加载 到 内 存 等 操作 : 


#analyzer.py 

import operator 

import string 

import nltk 

from nltk.util import ngrams 
import json 

import re 

import visualizer 


























SOURCE FILE - './scrapping-results.json' 


# 加 载 JSON 文 件 并 定义 输出 词典 
def load_json_data(file): 
with open(file) as input_file: 
return json.load(input_file) 


def analyze_data(d): 
return { 
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'shortest answer': get_shortest_answer(d), 

'most active users': get most active users(d, 10), 

'most active topics': get most active topics(d, 10), 

'most helpful, user': get most helpful user(d, 10), 

'most answered questions': get most answered questions(d, 10), 
'most common phrases': get most common, phrases(d, 10, 4), 


* 把 问题 的 正文 内 容 组 合成 一 个 列表 
def flatten_questions_body (data): 
body = [] 
for q in data: 
body.append(q['body']) 
return '. '.join(body) 


* 把 问题 的 标题 内 容 组 合成 一 个 小 写 的 列表 
def flatten_questions_titles(data): 
body = [] 
pattern = re.compile('(N[IN]) ') 
for q in data: 
lowered = string.lower(q['title']) 


filtered = re.sub(pattern, ' ', lowered) 
body .append (filtered) 
return '. '.join(body) 
下 面 一 组 函数 用 来 完成 数据 计数 (counting )， 然 后 通过 不 同 的 方式 分 析 JSON 数 据 获取 统 


结果 


返回 提问 问题 数量 最 多 的 作者 排名 
def get_most_active_users(data, limit): 
names = {} 
for q in data: 
if q['author'] not in names: 





names[q['author']] = 1 
else: 
names[q['author']] += 1 
return sorted(names.items(), reverse-True, key=operator.itemgetter(1))[:limit] 


def get, node content (node): 
return ' '.join([x[0] for x in node]) 


# 返回 问题 标题 中 最 常见 的 主题 排名 

def get_most_active_topics(data, limit): 
body = flatten_questions_titles (data) 
sentences = nltk.sent_tokenize (body) 





sentences = [nltk.word_tokenize(sent) for sent in sentences] 
sentences = [nltk.pos_tag(sent) for sent in sentences] 
grammar = "NP: {<JJ>?<NN.*>}" 

cp = nltk.RegexpParser (grammar) 

results = {} 


for sent in sentences: 
parsed = cp.parse(sent) 
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trees = parsed.subtrees(filter=lambda x: x.label() == 'NP') 
for t in trees: 
key = get node content (t) 
if key in results: 
results[key] += 1 


else: 
results[key] - 1 
return sorted(results.items(), reverse-True, 
key=operator.itemgetter(1)) [:limit] 


* 返回 答题 最 多 的 用 户 排名 
def get_most_helpful_user(data, limit): 
helpful_users = {} 
for q in data: 
for a in q['answers']: 
if a['author'] not in helpful users: 


helpful users[a['author']] = 1 
else: 
helpful users[a['author']] += 1 
return sorted(helpful users.items(), reverse-True, 
key=operator.itemgetter(1)) [:limit] 


# 返回 答案 最 多 的 问题 排名 


def get_most_answered_questions(d, limit): 


questions = {} 
for q in d: 
questions[q['title']] = len(q['answers']) 
return sorted(questions.items(), reverse=True, 
key=operator.itemgetter(1)) [:limit] 


* 返回 使 用 最 常用 词组 数量 最 多 的 问题 排名 
def get_most_common_phrases(d, limit, length): 
body = flatten_questions_body (d) 
phrases = {} 
for sentence in nltk.sent tokenize (body): 
words - nltk.word tokenize(sentence) 
for phrase in ngrams(words, length): 
if all(word not in string.punctuation for word in phrase): 
key - ' '.join(phrase) 
if key in phrases: 
phrases[key] += 1 


else: 
phrases[key] = 1 
return sorted(phrases.items(), reverse=True, 
key=operator.itemgetter(1)) [:limit] 


* 返回 答案 最 短 的 问题 排名 


def get shortest answer (d): 


shortest answer = { 
'body': ULT 


82. ”编写 初始 代码 167 





'length': -1 
} 
for q in d: 
for a in q['answers']: 
if len(a['body']) « shortest answer['length'] or 
shortest answer['length'] -- -1: 
shortest answer - ( 
'question': q['body'], 
'body': a['body'], 
'length': len(a['body']) 
} 


return shortest_answer 


下 面 的 代码 显示 如 何 使 用 前 面 声 明 的 函数 , 并 显示 函数 的 结果 。 人 处 理 它们 都 需要 遵循 下 面 三 
个 步骤 。 


(1) 把 JSON 文 件 载 入 内 存 。 
(2) 处 理 数据 ， 然 后 把 结果 保存 到 词典 
(3) 遍历 词典 ,显示 结果 。 


前 面 的 步骤 用 下 面 的 代码 实现 : 


data, dict = load json data(SOURCE FILE) 

















results - analyze data(data dict) 


print "--- ( Shortest Answer ) --- " 
visualizer.displayShortestAnswer(results['shortest answer']) 


print "--- ( Most Active Users ) --- " 
visualizer.displayMostActiveUsers(results['most active users']) 





print "--- ( Most Active Topics ) --- " 
visualizer.displayMostActiveTopics(results['most active topics']) 


print "--- ( Most Helpful Users ) --- " 
visualizer.displayMostHelpfulUser(results['most helpful user']) 





print "--- ( Most Answered Questions ) --- " 
visualizer.displayMostAnsweredQuestions(results['most answered, questions']) 











print "--- ( Most Common Phrases ) --- " 
visualizer.displayMostCommonPhrases (results['most common phrases']) 


下 面 文件 中 的 代码 主要 是 为 了 把 输出 结果 表现 成 人 性 化 的 形式 : 


#visualizer.py 
def displayShortestAnswer (data): 
print "A: %s" $ (data['body']) 
print "Q: %s" $ (data['question']) 
print "Length: $s characters" $ (data['length']) 
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def displayMostActiveUsers (data): 
index = 1 
for u in data: 
print "$s - $s (%s)" $ (index, u[0], u[1]) 
index += 1 


def displayMostActiveTopics (data): 
index - 1 
for u in data: 
print "£s - $s (%s)" $ (index, u[0], u[11) 
index += 1 


def displayMostHelpfulUser (data): 
index = 1 
for u in data: 
print "$s - $s (%s)" $ (index, u[0], u[1]) 
index += 1 


def displayMostAnsweredQuestions (data): 
index = 1 
for u in data: 
print "%s - %s (%s)" % (index, u[0], u[11) 
index += 1 


def displayMostCommonPhrases (data) : 
index = 1 
for u in data: 
print "$s - $s (%s)" $ (index, u[0], u[1]) 
index += 1 


8.2.1 分 析 代 码 性 能 


代码 性 能 分 析 可 以 通过 下 面 两 步 来 完成 ,就 像 我 们 之 前 做 过 的 那样 。 对 每 个 文件 ,我 们 都 分 
析 代 码 性 能 ， 获 取 数 据 ， 然 后 寻找 优化 方法 ， 最 后 改写 代码 并 重新 测量 代码 性 能 。 














就 像 前 面 代码 优 化 的 过 程 中 重复 的 几 个 步骤 一 样 :性 能 分 析 一 改写 代码 一 再 
次 性 能 分 析 ， 我 们 将 用 有 限 的 步骤 来 获得 结果 。 但 是 ， 切 记 优化 过 程 十 分 漫长 ， 
没有 尽头 。 
Re aH AL 
在 开启 优化 过 程 之 前 ， 让 我 们 先 获取 一 些 测量 数据 ， 以 便 进行 对 比 。 


一 个 容易 获得 的 数据 是 程序 运行 的 总 时 间 (在 我 们 的 例子 中 , 为 了 简化 , 我 们 限制 页 面 查 询 
总 数 为 20 )。 


简单 运行 Eime 命 令 行 工具 ， 就 可 以 获得 程序 的 运行 时 间 : 
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$ time python scraper.py 


下 面 的 截图 表明 ， 抓 取 并 解析 20 个 页 面 的 问题 数据 ， 并 转换 成 3MB 的 JSON 文 件 , 一 共 要 用 7 














Results saved 


real 7m37.963s 
UmMS/.18bs 
0m0.759s 


Poe) 26 MG ris ALAS EZ SEIS — HO 88 4E RIBUS TREE A, iE IP BÉ ART OA, HX]. E 3OBORC 
据 。 因 此 , RATI ARARE- t EGERIT AR DE at RATE PA MR IF A Ak 
理 请 求 。 由 于 我 们 的 代码 不 是 CPU 密集 型 , 所 以 我 们 可 以 安全 地 使 用 多 线程 模块 ( 请 参考 第 5 章 )， 
通过 最 少 的 努力 获取 最 大 的 性 能 提升 。 


为 了 说 清楚 我 们 要 做 的 事情 ， 用 下 面 的 图 形 表示 当前 的 爬虫 脚本 : 


















































HTML 解析 和 其 他 操作 


| IO í IO 四 IO 站 IO | 


/ 


VO 操作 (HITP 请 求 ) 









































我 们 花 了 大 量 的 时 间 运 行 UO 操 作 , 更 具体 地 说 , 我 们 通过 HTTP 请 求 获取 每 一 个 页 面 的 问题 
列表 o 


























就 像 我 们 之 前 看 到 的 ，IO 密 集 型 操作 通过 多 线程 模块 实现 并 行 十 分 简单 。 因 此 ， 我 们 要 把 
脚本 转换 成 下 面 的 形式 。 
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agua] vo 1/0 UO v | 
ThreadManager # 
(共享 数据 ) 
线程 52 | UO 1/0 VO vo | 
现在 ， 让 我 们 看 看 优化 过 的 代码 。 我 们 首先 会 看 到 ThreadManager 类 ， 它 主要 用 于 集中 管 
理 线程 的 配置 ， 以 及 整个 并 行进 程 的 状态 : 





from bs4 import BeautifulSoup 
import requests 

import json 

import threading 


SO_URL "http://scifi.stackexchange.com" 
QUESTION_LIST_URL = SO_URL + "/questions" 
MAX PAGE COUNT 20 


class ThreadManager: 
instance None 
final results 
threads done 
# 并 行 线程 的 数量 ， 
# 将 决定 每 个 线程 获取 的 页 面 总 


totalConnections 4 


[] 


@staticmethod 

def notify connection end(partial results): 
print. " Thread is done! -----" 
ThreadManager.threads done += 1 


ThreadManager.final results += Dott adler oss 
if ThreadManager.threads done == ThreadManager.totalConnections: 


prank * Saving data to file! ---- 


with open 


( 


json.dump (ThreadManager.final, results, 


下 面 的 函数 通过 Beatifulsoup 模 块 抓 取 页 面 信息 ， 


问题 的 具体 信息 : 


def get author. name (body): 
link name body.select(" 





.user-details a") 


scrapping-results-optimized.json' 


as outfile: 
indent=4) 


'w') 
outfile, 


获取 页 面 里 的 问题 列表 , 或 者 获取 每 个 
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def 


def 


def 


if len(link_name) == 0: 

text_name = body.select(".user-details") 

return text_name[0].text if len(text_name) > 0 else 'N/A' 
else: 

return link name[0].text 


get question answers (body): 
answers - body.select(".answer") 
a data - [] 

if len(answers) -- O0: 


return a data 


for a in answers: 
data = { 
'body': a.select(".post-text")[0].get text(), 
'author': get author. name (a) 
} 
a_data.append (data) 
return a_data 


get_question_data(url): 
print "Getting data from question page: $s " % (url) 
resp - requests.get (url) 


if resp.status code !- 200: 
print "Error while trying to scrape url: %s" % (url) 
return 


body soup = BeautifulSoup(resp.text) 

# 定义 一 个 将 被 转换 成 JSON 格 式 的 输出 词典 

q data = { 
'title': body_soup.select ('#question-header .question-hyperlink') [0].text, 
'body': body_soup.select ('#question .post-text')[0].get text(), 
'author': get author name (body soup.select(".post-signature.owner")[0]), 
'answers': get question answers (body soup) 

} 


return q_data 


get_questions_page(page_num, end_page, partial_results): 
DT 


print " Getting list of questions for page $s" $ (page num) 
ON 


url = QUESTION_LIST_URL + "?sort=newest&page=" + str(page_num) 
resp = requests.get (url) 
if resp.status_code != 200: 
print "Error while trying to scrape url: %s" % (url) 
else: 
body = resp.text 
main_soup = BeautifulSoup (body) 


# 获取 每 个 问题 的 网 络 链接 


questions = main soup.select('.question-summary .question-hyperlink' ) 
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urls = [SO URL + x['href'] for x in questions] 
for url in urls: 
q data = get question data (url) 
partial. results.append(q data) 
if page num + 1 « end page: 
get questions page(page num + 1, end page, partial results) 
else: 
ThreadManager.notify connection end(partial results) 


pages per connection - MAX PAGE COUNT / ThreadManager.totalConnections 
for i in range(ThreadManager.totalConnections): 
init page - i * pages per connection 
end page = init page + pages per connection 
t = threading.Thread(target-get questions page, 
args-(init page, end page, [],), 
name='connection-%s' % (i)) 
t.start() 


从 pages_per_connection 开 始 到 t .start () 的 这 部 分 代码 ， 是 与 前 一 个 版 本 差别 最 大 的 
地 方 。 现 在 不 是 从 第 1 页 开始 ， 然 后 一 页 一 页 地 抓 取 了 ， 而 是 从 预先 设置 好 的 线程 数量 ( 直接 使 
用 threading.Thread 类 ) 开始 ， 并 行 地 调用 我 们 的 get_question_page 函 数 。 我 们 要 做 的 就 
是 把 这 个 函数 作为 Larget 传 给 线程 


之 后 ， 我 们 还 需要 一 个 方式 来 集中 管理 线程 的 配置 参数 和 每 个 线程 产生 的 临时 结果 。 因 此 ， 
我 们 创建 了 ThreadManager 类 。 


如 下 图 所 示 ， 代 码 改 变 之 后 ， 运 行 时 间 从 原来 的 7 分 半 钟 降低 到 了 2 分 13 秒 。 
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real 2m13.450s 
user imY.068s 
sys 0m5.031s 


调整 线程 的 数量 ， 可 能 会 获取 更 快 的 运行 速度 ， 但 是 主要 的 优化 方法 就 是 这 样 。 



































8.2.2 数据 分 析 代 码 的 优化 


数据 分 析 脚 本 与 网 络 爬 虫 脚本 不 同 。 它 不 是 一 个 IO 密集 型 的 脚本 ， 而 是 CPU 密集 型 脚本 。 
它 需 要 的 IO 操作 极 少 ， 主 要 是 读 取 文 件 ， 输 出 结果 。 因 此 ， 我 们 重点 测量 与 CPU 相关 的 细节 。 


让 我 们 首先 获取 一 些 基 本 的 测量 数据 ， 以 便 有 个 基本 认识 。 















































real 0m3.470s 


user uml.324s 
sys Qm0 .084s 


上 图 显示 了 time 命 令 行 工 具 测 量 的 结果 。 现 在 我 们 有 一 个 基本 的 数据 做 参照 了 ， 我 们 知道 
自己 的 目标 是 把 运行 时 间 降 到 3.5 秒 以 下 。 
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第 一 种 方法 是 通过 cpProfile 性 能 分 析 器 获取 代码 运行 的 时 间 数 据 。 这 可 以 帮 我 们 全 面 地 认 
识 整 个 程序 ， 捕 捉 到 性 能 分 析 的 切入 点 。 分 析 结 果 如 下 图 所 示 。 


* |% Relative PR cycle Detection | «Te Relative to Parent <> Shorten Templates Ticks 





157 017 5360 _pair_iter «cycle 2> punkt.py 
282 000 8100 m <method ‘sub’ of" sre... (unknown) 
265 000 (0) m «next» repy 

240 000 29058 <next> (unknown) 
232 008 3036 annotate first, pass punkt.gy 
182 025 3036 tokenize words 

ans ann r: CSO < | Parts Callees CallGraph AllCallees Caller Map Machine Code 





hevotyzer [1] - Total Ticks Cost: 1 206. 


从 上 面 的 截图 中 可 以 看 出 两 点 。 


口 在 左边 的 列表 中 ， 我 们 可 以 看 出 函数 需要 消耗 的 时 间 。 我 们 会 发 现 列 表 中 最 耗 时 的 函数 
大 都 源 自 altk 模 块 ( 前 两 个 函数 的 时 间 都 是 下 面 的 函数 消耗 的 ,所 以 它们 俩 其 实 不 重要 )。 
口 在 右边 图 中 ， 浮 数 调用 图 ( Callee Map) 看 起 来 非常 复杂 ， 难 以 解释 ( 和 实际 情况 差别 很 
K, 里面 出 现 的 大 多 数 函 数 都 不 在 代码 中 ， 而 是 在 我 们 使 用 的 模块 里 )。 


也 就 是 说 ,直接 改 善 我 们 的 代码 并 不 是 很 简单 。 我 们 可 能 需要 换个 思路 : 由 于 我 们 做 了 大 量 
的 计算 ,可 能 使 用 带 类 型 的 代码 会 有 用 。 因 此 ， 让 我 们 用 Cython 试 试 。 

使 用 Cython 命 令 行 工具 分 析 我 们 的 代码 ， 会 发 现 大 部 分 代码 都 不 能 直接 编译 成 C 语 言 。 分 析 
结果 如 下 图 所 示 。 
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Generated by Cython 0.22 


Raw 


+001: 
+002: 
+003: 
+004: 
+005: 
+006: 
+007: 

008: 

009: 
+010: 

011: 

012: 
+013: 
+014: 
+015: 
+016: 
+017: 

018: 
+019: 
+020: 

021: 
+022: 
+023: 

024: 

025: 
+026: 
+027: 
+028: 
+029: 
+030: 
+031: 
+032: 
+033: 
+034: 
+035: 





: # Returns the user that has the most answers 


output: analyzer.c 


import operator 

import string 

import nltk 

from nltk.util import ngrams 
import json 

import re 

import visualizer 


SOURCE FILE = './scrapping-results.json' 


# Returns the top "limit" users with the most questions asked 
def get most active users(data, limit): 
names = {} 
for q in data: 
if q['author'] not in names: 
names[q['author']] = 1 
else: 
names[q['author']] += 1 
return sorted(names.items(), reverse-True, key-operator.itemgetter(1))[:limit] 


def get node content(node): 
return ' '.join([x[9] for x in nodel) 


# Tries to extract the most common topics from the question's titles 
def get most active topics(data, limit): 
body - flatten questions titles(data) 
sentences - nltk.sent tokenize(body) 
sentences - [nltk.word tokenize(sent) for sent in sentences] 
sentences - [nltk.pos tag(sent) for sent in sentences] 
grammar = "NP: {<JJ>?<NN.*>}" 
cp = nltk.RegexpParser(grammar) 
results = {} 
for sent in sentences: 
parsed = cp.parse(sent) 
trees = parsed.subtrees(filter-lambda x: x.label() == 'NP') 
for t in trees: 
key = get node content(t) 
if key in results: 
results[key] += 1 
else: 
results[key] = 1 
return sorted(results.items(), reverse-True, key=operator.itemgetter(1))[: limit] 














上 面 的 截图 显示 了 我 们 的 代码 中 需要 分 析 的 部 分 。 可 以 清晰 地 看 出 深 色 代 码 满 屏 都 是 , 这 说 
明 大 部 分 代码 都 没有 直接 翻译 成 C 语 言 。 可 惜 的 是 ， 由 于 我 们 在 绝 大 多 数 函 数 中 都 处 理 了 一 个 复 
杂 的 对 象 ， 所 以 我 们 能 优化 的 地 方 不 多 。 


男 外 ,简单 地 用 Cython 编 译 我 们 的 代码 ， 其 实 就 可 以 获得 更 好 的 结果 。 因 此 ， 让 我 们 看 看 应 
该 如 何 调整 源 代码 ， 以 便 可 以 用 Cython 编 译 它 。 第 一 个 文件 基本 上 和 原始 的 数据 分 析 代 码 一 样 ， 











只 是 改变 了 高 亮 显 示 的 代码 ,减少 了 一 些 函 数 的 调用 ， 而 且 把 代码 转 成 了 一 个 外 部 库 : 


# 
a 
i 
i 








analyzer_cython.pyx 
mport operator 
mport string 

mport nltk 


from nltk.util import ngrams 


i 
i 


mport json 
mport re 


SOURCE FILE - './scrapping-results.json' 
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# 返回 提问 问题 数量 最 多 的 作者 排名 
def get_most_active_users(data, int limit): 
names = {} 
for q in data: 
if q['author'] not in names: 


names[q['author']] = 1 
else: 
names[q['author']] += 1 
return sorted(names.items(), reverse-True, key=operator.itemgetter(1))[:limit] 


def get node content (node): 
return ' '.join([x[0] for x in node]) 


# 返回 问题 标题 中 最 常见 的 主题 排名 

def get_most_active_topics(data, int limit): 
body = flatten_questions_titles (data) 
sentences = nltk.sent_tokenize (body) 





sentences = [nltk.word_tokenize(sent) for sent in sentences] 
sentences = [nltk.pos_tag(sent) for sent in sentences] 
grammar = "NP: {<JJ>?<NN.*>}" 

cp = nltk.RegexpParser (grammar) 

results = {} 


for sent in sentences: 
parsed = cp.parse(sent) 
trees = parsed.subtrees(filter=lambda x: x.label() == 'NP') 
for t in trees: 
key = get_node_content (t) 
if key in results: 
results[key] += 1 


else: 
results[key] = 1 
return sorted(results.items(), reverse=True, 
key=operator.itemgetter(1)) [:limit] 


# 返回 答题 最 多 的 用 户 排名 
def get_most_helpful_user(data, int limit): 
helpful_users = {} 
for q in data: 
for a in q['answers']: 
if a['author'] not in helpful users: 


helpful users[a['author']] - 1 
else: 
helpful users[a['author']] += 1 
return sorted(helpful users.items(), reverse-True, 
key=operator.itemgetter(1)) [:limit] 


* 返回 答案 最 多 的 问题 排名 
def get_most_answered_questions(d, int limit): 
questions = {} 
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for q in d: 
questions[q['title']] = len(q['answers']) 
return sorted(questions.items(), reverse=True, 
key=operator.itemgetter(1)) [:limit] 


* 把 问题 的 正文 内 容 组 合成 一 个 列表 
def flatten_questions_body (data): 
body = [] 
for q in data: 
body.append(q['body']) 
return '. '.join(body) 


* 把 问题 的 标题 内 容 组 合成 一 个 小 写 的 列表 
def flatten_questions_titles(data): 
body = [] 
pattern = re.compile('(\[I\])') 
for q in data: 
lowered = string.lower(q['title']) 
filtered = re.sub(pattern, ' ', lowered) 
body.append (filtered) 
return '. '.join(body) 


* 返回 使 用 最 常用 词组 数量 最 多 的 问题 排名 
def get_most_common_phrases(d, int limit, int length): 
body = flatten_questions_body (d) 
phrases = {} 
for sentence in nltk.sent_tokenize (body): 
words - nltk.word tokenize(sentence) 
for phrase in ngrams(words, length): 
if all(word not in string.punctuation for word in phrase): 
key - ' '.join(phrase) 
if key in phrases: 
phrases[key] += 1 


else: 
phrases[key] = 1 
return sorted(phrases.items(), reverse=True, 
key=operator.itemgetter(1))[:limit] 


# 返回 答案 最 短 的 问题 排名 
def get shortest answer (d): 
cdef int shortest length - O0 


shortest answer = { 
Spay e, 
'length': -1 

j 

for g xn d: 
for a in q['answers']: 
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if len(a['body']) < shortest_length or shortest_length == 0: 
shortest length = len(a['body']) 
shortest_answer = { 
'question': q['body'], 
'body': a['body'], 
'length': shortest length 
} 


return shortest_answer 


# 加 载 JSON 文 件 并 返回 输出 结果 的 词典 
def load_json_data(file): 
with open(file) as input_file: 
return json.load(input_file) 


def analyze_data(d): 
return { 

'shortest answer': get_shortest_answer(d), 
'most active users': get most active users(d, 10), 
'most active topics': get most active topics(d, 10), 
'most helpful, user': get most helpful user(d, 10), 
'most answered questions': get most answered questions(d, 10), 
'most common phrases': get most common, phrases(d, 10, 4), 


) 
下 面 的 文件 是 Cython 编 译 源 代码 ， 我 们 在 前 面 已 经 看 到 过 这 段 代 码 ( 请 参考 第 6 章 ): 





danalyzer-setup.py 
from distutils.core import setup 
from Cython.Build import cythonize 


setup( 
name - 'Analyzer app', 
ext modules = cythonize("analyzer_cython.pyx"), 


) 


最 后 一 个 文件 把 我 们 新 改 的 外 部 库 导 入 到 编译 的 模块 中 ,这 个 文件 会 调用 1oad_json_gdata 
和 analyze_data 方 法 ， 最 后 使 用 visualizer 模 块 生成 输出 结 

















#analyzer-use-cython.py 

import analyzer_cython as analyzer 

import visualizer 

data_dict = analyzer.load_json_data(analyzer.SOURCE_FILE) 


results = analyzer.analyze_data(data_dict) 


print "=== ( Shortest Answer ) === " 
visualizer.displayShortestAnswer(results['shortest answer']) 


print "--- ( Most Active Users ) --- " 
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visualizer.displayMostActiveUsers(results['most active users']) 


print "=== ( Most Active Topics ) === " 
visualizer.displayMostActiveTopics(results['most active topics']) 


print "=== ( Most Helpful Users ) === " 
visualizer.displayMostHelpfulUser(results['most helpful user']) 


print "--- ( Most Answered Questions ) 
visualizer.displayMostAnsweredQuestions 


一 il 


results['most answered questions']) 








print "--- ( Most Common Phrases ) --- " 
visualizer.displayMostCommonPhrases(results['most common, phrases']) 


前 面 的 代码 可 以 通过 下 面 的 命令 进行 编译 : 























$ python analyzer-setup.py build_ext -inplace 


然后 我 们 运行 analyzer-use-cython.py 脚 本 ， 会 看 到 下 面 的 运行 时 间 : 





real 0m1.273s 
user UnmI.2Z035 
sys OmO . 0685s 


运行 时 间 从 3.5 秒 降 到 了 1.3 秒 。 这 是 通过 简单 地 重组 代码 ， 使 用 Cython 编 译 得 到 的 显著 的 性 
能 提升 ， 就 像 我 们 在 第 6 章 看 到 的 一 样 。 经 过 简单 的 编译 就 可 以 获得 很 好 的 效果 。 

这 段 代 码 可 以 进一步 分 解 , 并 对 大 部 分 使 用 复杂 结构 的 代码 进行 改写 , 这 样 我 们 就 可 以 把 所 
有 的 变量 都 改 成 C 语 言 原生 类 型 。 我 们 还 可 以 把 nltk 换 成 C 语 言 写 的 自然 语言 处 理 库 ， 比 如 
OpenNLP ( http://opennlp.sourceforge.net/projects.html ). 
























































8.3 小结 
你 已 经 看 到 了 本 章 的 结尾 ,也 是 本 书 结束 的 时 候 了 。 本 章 提 供 的 示例 ,演示 了 如 何 通过 前 面 
几 章 学 到 的 优化 技术 ， 对 任意 一 段 代 码 进行 性 能 分 析 和 改进 。 


就 像 并 非 所 有 的 技术 都 可 以 彼此 兼容 一 样 ， 也 不 是 所 有 的 优化 技术 都 能 应 用 在 本 章 的 示例 
中 。 但 是 ， 我 们 看 到 了 一 些 技 术 的 使 用 ， 更 具体 地 说 ， 我 们 看 到 了 多 线程 技术 ，cProfile 和 
kcachegrind 性 能 分 析 技 术 ， 以 及 通过 Cython 进 行 编译 的 技术 。 


感谢 你 花 时 间 阅 读本 书 ， 圳 心地 希望 你 喜欢 它 ! 
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对 于 Python 程序 员 来 阅 ， 仅 仅 知 道 如 何 写 代 码 是 不 够 的 ， 还 要 能 够 充分 利用 关键 代码 的 处 理 能 力 。 本 书 将 
讨论 如 何 对 Python 代码 进行 性 能 分 析 ， 找 出 性 能 瓶颈 ， 并 通过 不 同 的 性 能 优化 技术 消除 瓶颈 。 
本 书 从 基本 的 概念 开始 ， 循 序 渐进 地 介绍 高 级 的 优化 主题 。 首 先 介绍 了 Python 的 主流 性 能 分 析 器 ， 以 及 用 
于 帮助 理解 性 能 分 析 结 果 的 可 视 化 工具 。 然 后 介绍 了 通用 的 性 能 优化 方法 和 专门 针对 Python 的 性 能 优化 方法 ， 
带 你 浏览 该 语言 的 主要 结构 ， 让 你 只 需 做 一 点 改变 ， 即 可 迅速 改善 代码 的 性 能 。 最 后 介绍 了 一 些 专门 用 于 数据 
处 理 的 程序 库 ， 教 你 如 何 正确 地 使 用 它们 以 获得 最 佳 性 能 。 
如 果 你 是 一 名 Python 开发 者 ， 想 优化 Python 代码 的 性 能 ， 或 是 想 进 一 步 提升 编程 能 力 ， 那 么 本 书 非常 适 
合 你 阅读 。 
通过 阅读 本 书 ， 你 将 能 
掌握 逐步 优化 代码 的 方法 ， 学 会 使 用 不 同 的 性 能 分 析 工 具 
理解 性 能 分 析 器 的 概念 ， 学 会 如 何 观 察 输出 结果 
利用 性 能 分 析 工 具 解 释 可 视 化 的 性 能 输出 结果 ， 改 善 脚 本 的 性 能 
用 Cython 快 速 创 建 Python 与 C 语 言 混合 的 应 用 程序 
利用 PyPy 改 善 Python 代码 的 性 能 
通过 Numba、Parakeet 和 pandas 优 化 数据 处 理 代 码 
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